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最 近 十 年 间 ,概率 图 模型 在 数据 控 掘 和 模式 识别 等 诸多 领域 得 到 了 广泛 的 应 用 ,促进 了 
其 理论 研究 的 迅速 发 展 。 概 率 图 模型 为 系统 地 解决 数据 挖掘 和 模式 识别 问题 提供 了 似 然 概 
率 框架 ,这 些 问 题 可 以 看 作 是 一 类 搜索 问题 ,是 从 局 部 的 、 不 确定 的 和 不 明确 的 观测 变量 中 
得 到 全 局 相关 的 结果 。 不 像 在 一 些 其 他 研究 领域 中 ,研究 者 们 可 能 不 用 完全 了 和 解 问题 内 部 
变量 间 的 相关 性 ,但 是 在 数据 挖掘 和 模式 识别 任务 中 ,研究 者 们 必须 清楚 变量 间 的 相关 性 才 
能 够 建立 一 套 准确 、 可 靠 的 物理 模型 以 实现 指导 整个 搜索 过 程 。 图 模型 理论 为 这 些 研 究 提 
供 了 一 套 统一 的 框架 ,这 套 框 架 能 够 表达 出 变量 间 的 相互 关系 和 现实 世界 某 些 特殊 问题 的 
上 下 文 关联 知识 ,同时 这 套 模型 也 能 够 通过 严格 的 推理 进行 目标 识别 和 分 类 。 概 率 图 模型 
较 容 易 地 捕获 观测 变量 间 及 观测 变量 同 领域 知识 间 的 相关 性 ,同时 能 够 进行 系统 的 量化 计 
算 和 不 确定 性 推理 。 因 此 ,在 计算 机 视觉 .语音 识别 和 信用 风险 评估 等 模式 识别 和 数据 挖掘 
的 任务 中 ,概率 图 模型 成 为 常用 的 模型 工具 。 

概率 图 模型 的 发 展 历史 可 以 追溯 到 20 世纪 80 年 代 后 期 ,Judea Pearl 和 Steffen 
Lauritzen 首先 把 图 模型 概念 引入 到 人 工 智能 和 统计 学 习 领 域 。 不 久 以 后 ,图 模型 迅速 应 用 
到 统计 、 系 统 工程 、 信 息 论 、 模 式 识别 和 计算 机 视觉 领域 。 在 这 些 领域 的 广泛 应 用 促进 了 概 
率 图 模型 理论 的 发 展 , 各 种 类 型 的 模型 结构 .学习 和 推理 算法 层出不穷 。 关 于 概率 图 模型 有 
两 个 主要 的 问题 一 一 学 习 和 推理 。 学 习 主 要 是 从 数据 中 估计 模型 的 结构 和 参数 ,然而 推理 
的 任务 主要 是 对 于 给 定 的 模型 计算 边缘 和 条 件 分 布 。 和 这 两 个 问题 相关 的 是 计算 复杂 度 问 
题 ,通常 精确 推理 和 学 习 是 NP-hard 问题 。 随 着 概率 图 模型 学 习 理论 和 推理 算法 的 不 断 成 
熟 ,其 能 够 通过 对 大 量 数据 的 理解 来 建立 精确 的 模型 并 且 提供 快速 和 有 效 的 推理 算法 ,这些 
都 使 得 其 具有 独一无二 的 表示 复杂 领域 知识 的 能 力 , 使 其 继续 成 功 地 应 用 在 更 加 广泛 的 领 
域内 ,如 医疗 诊断 .军事 决策 .商业 智能 等 。 

基于 概率 图 模型 理论 在 越 来 越 多 领域 中 发 挥 的 重要 作用 ,其 模型 的 学 习 理 论 和 方法 对 
其 应 用 的 有 效 性 发 挥 了 重要 的 作用 ,因此 本 书 主 要 针对 概率 图 模型 学 习 理 论 进行 梳理 与 总 
结 ,并 结合 其 在 不 同 领域 的 应 用 ,尤其 是 计算 机 视觉 .信用 风险 评估 和 语音 识别 中 的 应 用 , 介 
绍 最 新 的 概率 图 模型 学 习 理论 的 发 展 。 

本 书 是 作者 在 从 事 十 多 年 的 概率 图 模型 研究 工作 的 基础 上 编写 的 。 书 中 较 全 面 地 介绍 
了 概率 图 模型 的 基础 知识 、 主 要 学 习 理 论 与 计算 方法 。 作 者 在 国内 外 学 术 刊 物 与 国际 学 术 
会 议 上 发 表 了 近 200 多 篇 论文 , 书 中 介绍 了 作者 在 这 些 论文 中 报道 的 部 分 研究 成 果 。 

本 书 共 分 9 章 。 第 1 章 介 绍 概率 图 模型 的 相关 基本 概念 ,主要 涉及 概率 论 .图 论 和 信息 
论 等 知识 ; 第 2 章 重点 对 概率 图 模型 的 分 类 、 学 习 及 其 推理 原理 进行 详细 介绍 ; 第 3 章 重 点 
阐述 传统 的 基于 完整 数据 集 的 概率 图 模型 参数 学 习 和 结构 学 习 理 论 ; 第 4 RRR KS 


I 前 言 
整数 据 的 概率 图 模型 学 习 方 法 ; 第 5 章 介 绍 无 向 概率 图 模型 的 学 习 方法 ; 第 6 章 详细 介绍 
近 几 年 提出 的 新 型 概率 图 模型 的 学 习 算 法 ; 第 7 一 9 章 介 绍 概率 图 模型 理论 在 计算 机 视觉 、 
个 人 信用 风险 评估 ,语音 识别 等 领域 的 应 用 及 相关 问题 分 析 。 
本 书 撰写 过 程 中 参考 了 大 量 的 国内 外 相关 书籍 和 资料 ,在 此 对 作者 们 表示 衷心 的 感谢 。 
由 于 编者 才 朴 学 浅 , 书 中 错误 在 所 难免 , 敬 请 读者 批评 指正 。 编 者 的 E-mail 为 
编 者 
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第 工 章 
概率 图 模型 基础 知识 


1.1 概述 


概率 图 模型 是 图 模型 理论 和 概率 论 相 结合 的 产物 , 它 为 利用 数学 和 工程 的 方法 来 解决 
不 确定 性 和 复杂 系统 问题 提供 了 自然 的 工具 。 作 为 建 模 和 推理 工具 ,概率 图 模型 理论 使 用 
直观 、 有 效 、 灵 活 的 图 结构 来 表达 多 个 随机 变量 的 概率 分 布 。 在 图 结构 中 , 结 点 代表 了 随机 
变量 , 结 点 间 的 连接 ( 边 ) 代 表 了 随机 变量 之 间 的 统计 关系 。 图 结构 刻画 了 随机 变量 间 的 条 
件 依赖 和 独立 关系 ,从 系统 的 角度 揭示 变量 间 的 不 确定 性 ,并 为 不 确定 性 的 传递 提供 手段 。 
基于 概率 图 模型 ,联合 概率 分 布 可 以 分 解 成 多 个 随机 变量 子 集 的 函数 ,这 个 因 式 分 解 极 大 地 
简化 了 多 变量 联合 概率 分 布 模型 。 基 于 概率 论 ,概率 图 模型 算法 利用 图 结构 有 效 的 计算 边 
缘 概 率 或 其 他 条 件 概 率 。 

在 讨论 概率 图 模型 的 基本 原理 和 学 习 方 法 之 前 ,本 章 就 图 论 .概率 论 和 信息 论 的 相关 概 
念 予 以 介绍 。 


1.2 图 论 的 相关 基本 概念 


为 了 理解 概率 图 模型 ,需要 先 了 解 一 些 图 论 的 基本 知识 。 
1. 无 向 图 


一 个 无 向 图 避 是 一 个 二 元 组 <N,E> , 即 U=<N,E>, HH, 
。N 是 一 个 非 空 集合 的 顶点 集 ,N 中 的 元 素 称 为 顶点 或 结 点 。 
。 正 是 无 序 积 NX N 的 多 重子 集 ( 元 素 可 多 次 出 现 ), 称 已 为 U 的 边 集 ,正中 的 元 素 称 
为 无 向 边 或 简称 边 。 
在 一 个 图 U 一 <N,E> 中 ,为 了 表示 NME 分 别 为 U 的 顶点 集 和 边 集 。 常 将 N 记 成 
NCU), m# E idm ECU). 


2. 有 向 图 


一 个 有 向 图 D 是 一 个 二 元 组 <N,E 二 , 即 D=<N,E>, HH; 
。 六 是 同 无 向 图 一 样 的 顶点 集 。 
。 下 是 卡 氏 积 的 多 重子 集 , 其 元 素 称 为 有 向 边 , 也 简称 边 或 弧 ; 有 时 用 NCD) .E(D) 4} 


2 第 1 章 概率 图 模型 基础 知识 





别 表 示 图 D 的 顶点 集 和 边 集 。 
在 实际 应 用 中 ,不 论 是 无 向 图 还 是 有 向 图 ,一 般 只 画 出 它 的 图 形 , 而 不 写 出 N ME 的 集 
合 表达 式 。 下 面 分 别 列 出 无 向 图 和 有 向 图 的 图 形 表示 和 对 应 的 集合 表示 。 
Ki AU=<N,E>A 1.1 所 示 , 有 
N= {m 912573 974 ,705 } 
E= {(n 512) (nz 912) 5 (nz 73) > Cm 973) ，(721 » m4) } 
AR U=<N,E>ia 1.2 所 示 , 有 
N= {n sn sn sn, sns} 
E= {< nom >, <mn >, < nm,m >, <mn >, 
< msn, >, < msns >, <n >, n,n >} 





ns 


图 1.1 无 向 图 图 1.2 有 向 图 


3. 混合 图 
如 果 在 图 中 一 些 边 是 有 向 边 , 另 一 些 边 是 无 向 边 , 则 称 这 个 图 是 混合 图 。 
4, 邻接 集 (Adracency Set) 


在 一 个 图 中 , 若 两 个 结 点 由 一 条 有 向 边 或 一 条 无 向 边关 联 , 则 称 这 两 个 结 点 互 为 邻接 
点 。 给 定 一 个 无 向 图 UU 二 二 N,E 汪 > 和 图 的 一 个 结 点 n;E N, 则 n; 的 邻接 集 就 是 在 图 中 直接 
Al n: 相连 的 结 点 集合 , 即 Adr(n;) = {7 | (ni,n;)EE}。 根 据 邻 接点 的 概念 ,在 有 向 图 中 也 
存在 邻接 集 。 根 据 有 向 边 描 述 的 方向 性 ,在 有 向 图 中 n 的 邻接 集 又 可 以 分 为 两 部 分 。 邻 接 
集 的 概念 给 出 了 图 中 结 点 间 的 邻 域 关 系 , 用 QCn;) 来 表示 结 点 n 的 邻 域 集合 。 
例如 ,在 图 1. 1 中 ,各 个 结 点 的 邻接 集 为 
Adr(m) = {m ,ns sn}; 
Adr(nz) = {n snz ,723 } ; 
Adr(n3) = {n snz}; 
Adr(n,) = {n}; 
Adr(n;) = $; 
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5. 有 限 图 .ma 阶 图 和 平凡 图 


设 G 王 二 N, 尼 > 为 一 个 有 向 图 或 无 向 图 ,可 定义 以 下 概念 : 

(1) 有 限 图 。 若 N.E 都 是 有 穷 集合 , 则 称 G 是 有 限 图 (在 概率 图 模型 中 ,只 涉及 有 限 图 ) 。 
(2) m KE. EINI SMNI EREA N 的 元 素 个 数 ), 则 称 G Am 阶 图 。 

G) FAA. 车 EE 二 $, 则 称 G 为 零 图 。 特 别 是 , 若 此 时 又 有 |NI 王 1, 则 称 G 为 平凡 图 。 


6. 平行 边 
在 图 中 ,连接 同一 对 结 点 间 的 多 条 边 称 为 平行 边 。 含 有 平行 边 的 任何 一 个 图 被 称 为 多 
重 图 。 , 

7. 简单 图 

不 含有 平行 边 和 自 环 的 图 称 为 简单 图 (本 书 讨 论 的 都 是 简单 图 ) 。 

8. 无 向 完全 图 


设 G 王 二 NE>> 是 半 阶 无 向 简单 图 , 若 G 中 任何 顶点 都 与 其 余 的 n 一 1 个 顶点 相 邻 , 则 
KC 为 ” 阶 无 向 完全 图 。 


9. 有 向 完全 图 


有 向 完全 图 G 二 二 N,E 二 设 为 n 阶 有 向 简单 图 ,车 对 于 任意 的 顶点 w,zE N, u+, 
AA HHU, v> LA <v, u>, ME Den 阶 有 向 完全 图 。 


10. 子 图 和 完全 子 图 


it G=<N,E>,G = 二 二 N',E 这 是 两 个 图 , 若 N'CN FB E’CE,WMKG EG 的 子 图 ， 
G 是 G' 的 母 图 。 记 做 G'SG。 如 果 G 是 完全 图 , 则 称 G' 是 G 的 完全 子 图 。 


11. RKASF AS K(Clique) KA 


给 定 一 个 无 向 图 G, 如 果 一 个 完全 子 图 不 是 其 他 任何 一 个 完全 子 图 的 真子 图 , 则 称 为 极 
大 完全 子 图 。 极 大 完全 子 图 的 结 点 构成 的 集合 又 称 为 簇 或 团 。 

容易 知道 ,完全 图 的 任意 子 图 都 可 能 是 完全 图 ,只 要 所 有 连接 子 图 结 点 的 边 都 在 子 图 
内 。 一 个 图 可 能 有 很 多 子 图 。 这 其 中 应 该 会 有 一 些 “ 极 大 的 ”完全 子 图 。 


12. 通路 和 回路 


给 定 图 G 二 二 N,E 二 , 设 G 中 的 顶点 和 边 的 交替 序列 为 厂 二 noe1mes*…nier, 若 本 满足 
UPA: nF n 是 e; 的 端点 (在 G 是 有 向 图 时 ,要 求 n;_ 1 是 e 的 始点 ,n; Æ e MAA) 
G=1,2, L), WF r ATA no Z n, 的 通路 。n。 和 ni 分 别称 为 此 通路 的 起 点 和 终点 , 卫 
中 边 的 数目 工 称 为 卫 的 长 度 。 当 no 二 nL 时 ,此 通路 称 为 回路 。 


13. 无 环 图 和 有 环 图 
如 果 图 中 没有 回路 , 则 称 为 无 环 图 (Unloopy Graph)。 对 应 有 回路 的 图 称 为 有 环 图 
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(Loopy Graph). 

给 定 的 概率 图 模型 是 否 有 环 路 ,对 信念 传播 算法 非常 重要 。 如 果 是 无 环 图 ,信念 传播 算 
法 可 以 得 到 准确 的 计算 ,其 收敛 性 可 以 证 明 。 如 果 是 有 环 图 ,信念 传播 算法 则 大 多 采用 一 种 
近似 算法 。 


14. 连通 性 和 可 达 性 


在 一 个 无 向 图 UU 中 ,车 从 顶点 n 到 n; 存在 通路 (当然 从 nj; 到 n; 也 存在 通路 ), 则 称 点 
n 与 n; 是 连通 的 。 规 定点 nn; 到 自身 总 是 连通 的 。 在 一 个 有 向 图 DD 中 ,车 从 顶点 nn; Bln, 存 
在 通路 , 则 称 点 n: Bn, 可 达 。 规 定点 n 到 自身 总 是 可 达 的 。 


15. 连通 图 和 非 连通 图 

若 无 向 图 U 是 平凡 图 ,或 U 中 任意 两 个 顶点 都 是 连通 的 , 则 称 U 是 连通 图 ; 否则 , 称 U 
是 非 连 通 图 。 

16. 连通 分 支 


无 向 图 中 ,顶点 间 的 连通 关系 是 等 价 关 系 。 设 U 为 一 个 无 向 图 ,R Æ U 中 顶点 之 间 的 
连通 关系 ,按照 尺 可 将 N(U) 划 分 成 k(& 宇 1) 个 等 价 类 , 记 为 Ni,N;,…,N。 由 它们 导出 
的 子 图 称 为 U 的 连通 分 支 ,其 个 数 记 为 PU). 


17. 点 割 集 与 割 点 


设 无 向 图 U= 二 N,E> ,车 存在 顶点 子 集 N’'CN, 使 U0 MEN OB 六 中 的 顶点 及 关联 
的 边 都 删除 ) 后 ,所 得 U 一 N' 的 连通 分 支 数 与 U 的 连通 分 支 数 满足 训 (U 一 NO) 之 训 (U) ,而 删 
除 N' 后 的 任何 真子 集 N” 后 ,由 pCU-N)=pU WK N 为 U 的 点 割 集 。 若 点 割 集中 只 有 
一 个 顶点 n WER n AFL. 


18. 相关 性 分 割 (D-Separation) 


wA.B.CAAAA D 中 两 两 不 相交 的 结 点 集 , 且 A.B 间 的 任意 路 径 都 被 C 阻塞 , 则 
PK AB RC 相关 性 分 割 ,而 C 称 为 A、B 的 切割 集 。 


19. 父 结 点 与 子 结 点 


在 有 向 图 中 ,连接 同一 条 弧 ( 边 ) 的 两 个 端点 ,根据 弧 的 方向 分 为 弧 尾 和 弧 头 。 有 时 也 称 
弧 尾 结 点 是 弧 头 结 点 的 父 结 点 , 弧 头 结 点 是 弧 尾 结 点 的 子 结 点 。 


1.3 概率 论 的 相关 基本 概念 


本 节 主 要 介绍 概率 论 中 与 概率 图 模型 密切 相关 的 一 些 基本 概念 。 
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1.3.1 随机 变量 与 概率 函数 
1. 随机 变量 


如 果 对 于 试验 的 样本 空间 Q={o} 中 的 每 一 个 样本 点 w, 变 量 X 都 有 一 个 确定 的 实数 值 
与 之 对 应 , 则 变量 X 是 样本 点 w 的 实 函 数 , 记 做 和 X 一 X(o), 称 这 样 的 变量 X 为 随机 变量 。 
常用 大 写字 母 XY、Z 等 表示 随机 变量 ,用 小 写字 母 x、y、z 等 表示 其 取 值 。 
”随机 变量 的 取 值 情况 又 可 把 其 分 为 两 类 , 即 离散 随机 变量 和 连续 随机 变量 。 


2. 概率 函数 


设 X 为 一 随机 变量 ,z 是 它 的 一 个 取 值 。 在 样本 空间 中 ,所 有 使 X 取 值 为 z 的 原子 事 
件 组 成 一 个 事件 , 记 做 Ax- = LWE Nl Xw) =r) WR X=”, FX = r” WHR 
P(X 二 x) 依赖 于 X 的 取 值 zx, 让 之 在 随机 变量 X 的 状态 空间 Qx 上 变动 ,P(X 一 z) 就 成 为 
Ox 的 一 个 取 值 于 [0,1] 的 函数 , 称 之 为 随机 变量 X 的 概率 质量 函数 , 记 做 P(X). 

离散 随机 变量 有 概率 质量 函数 与 之 对 应 ,连续 随机 变量 有 概率 密度 函数 与 之 对 应 。 


1.3.2 古典 概率 与 主观 概率 


在 古典 概率 中 ,如 果 基 本 事件 的 总 数 为 n, 事 件 X 所 包含 的 基本 事件 个 数 为 r(r 二 nn)， 
则 定义 事件 X 的 概率 P(X) 为 r/n, 即 


二 XX 中 包含 的 基本 事件 个 数 
P(X) = ANE BR (1.1) 
主观 概率 又 称 为 似 然 率 ,是 人 们 对 某 一 事件 X 发 生 信任 程度 大 小 的 主观 评价 , 即 
P(X) 一 [对 X 发 生 的 信用 度 ] (1. 2) 


1.3.3 联合 概率 分 布 
设 (X,Y) 是 二 维 随机 变量 ,对 于 任意 实数 zx,y, 事 件 {X 委 z),{Y 委 >)} 同 时 发 生 的 概率 为 
F(z,y) = P{X =2z,Y = y} (1. 3) 
称 其 为 二 维 随 机 变量 (X,Y) 的 分 布 函数 ,或 称 其 为 随机 变量 X 和 YY 的 联合 分 布 函数 。 
1. 离散 型 随机 变量 的 联合 概率 分 布 


如 果 二 维 随机 变量 (X,Y) 只 取 有 限 个 或 可 列 个 数 对 (zi,y;), 则 称 (X,Y) 为 二 维 离散 型 
随机 变量 , 称 





P{X= 2,,Y = y} = py i=1,2,; j= 1,2,. (1. 4) 
为 (X,Y) 的 概率 分 布 , 或 X 与 Y 的 联合 概率 分 布 。 


2. 连续 型 随机 变量 的 联合 概率 分 布 


如 果 存 在 二 元 非 负 函数 f(x,y) ,使 得 二 维 随机 变量 (X,Y) 的 联合 分 布 函数 FCz,y) 可 
表示 为 
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Fz’) =| | rezsyydzdy .5 
则 称 (X,Y) 为 二 维 连续 型 随机 变量 , 称 f(x,y) 为 (X,Y) 的 概率 密度 ,或 X 与 Y 的 联合 概率 
密度 。 
1.3.4 边缘 概率 分 布 


设 二 维 随机 变量 (X,Y) 具 有 分 布 函数 FEGz,y)。X 和 YY 都 是 一 维 随机 变量 ,也 各 有 对 
应 的 分 布 函 数 Fx(z) 和 Fy Cy) ,依次 称 为 二 维 随机 变量 (X,Y) 关 于 X 和 关于 YY 的 边缘 分 布 
函数 。 
易 知 
Fy(z) = P{X <x} = P(X < z,Y <+ œ} = limF(z,y) = F(x, +œ) (1.6) 


Fy(a) = P{Y < y} = P(X <+ œY < y) = limF(z,y) = F(t+@,y) (1.7 
1, 二 维 离散 型 随机 变量 的 边缘 分 布 
设 二 维 高 散 型 随机 变量 (X,Y) 的 联合 分 布 为 


P{X = Zz,Y = y;} = Py i = 11,2503 j = 1,2, 
则 称 
p: = P(X=z)= D} p; i=1,2,. (1. 8) 
j=l 
为 (X,Y) 关 于 X 的 边缘 分 布 。 
称 
b; = PLY = y;} = Dps J= 1,2, (1. 9) 


为 (X,Y) 关 于 了 的 边缘 分 布 。 
2. 二 维 连续 型 随机 变量 的 边缘 概率 密度 
设 二 维 连续 型 随机 变量 (X,Y) 的 分 布 函 数 为 F(z,y) ,概率 密度 为 fCz,y) 。 因 为 


Fx(z) = F(a, +o) =" (| fer,wdy)ar (1. 10) 
由 分 布 函数 定义 知 ,X 是 一 个 连续 型 随机 变量 , 且 其 概率 密度 为 
faa) = |" fayd t i 
同样 有 
y +o 
Fy = Fay) 一 (|T Fry dd) dy (1.12) 
所 以 , Y 也 是 一 个 连续 型 随机 变量 ,其 概率 密度 为 
fey) = |" fayda (1.13) 


称 fx) |" fas ddy 为 (X,Y 关于 X 的 边缘 概率 密度 ; 称 A= |T Fey) 


1.3 概率 论 的 相关 基本 概念 7 





dz 为 (X,Y) 关 于 Y 的 边缘 概率 密度 。 


1.3.5 条 件 概率 分 布 
对 二 维 随机 变量 (X,Y 了 ) 而 言 ,随机 变量 X 的 条 件 概率 分 布 ,就 是 在 给 定 Y 取 某 个 值 的 
RETF X 的 概率 分 布 。 
1. 离散 型 随机 变量 的 条 件 分 布 
设 二 维 离散 型 随机 变量 (X,Y) 的 联合 概率 分 布 为 
P(X = 2;,Y = y;} = py i = 1,2,3; j = 1,2, 
对 一 切 使 PtY 一 光一 记 = $) py >0 的 六, 称 


P{X = zi,Y = y;} _ Dy 


i? = en 1. 
Ay = =} i (1.14) 





bi; = P{X = z | Y = y) = 


HAE Y= y; 条 件 下 X 的 条 件 概率 分 布 。 
两 变量 XY 的 联合 分 布 P(X,Y) ,按照 条 件 概 率 分 布 的 定义 ,可 得 


P(X,Y) = P(X)P(Y | X) (1.15) 
将 其 推广 到 n 个 变量 的 联合 分 布 忆 (X， Xoo Xn ,有 
POX, 5X2 5°, X,) = P(X,)PCX, | Xi) P(X, | Xi ，""* Xna) cl. 16) 


将 一 个 联合 概率 分 布 分 解 为 一 系列 条 件 分 布 的 乘积 , 称 为 链 规则 。 
2. 连续 型 随机 变量 的 条 件 分 布 


设 (X,Y) 的 概率 密度 为 fCz,y),(X,Y) 关 于 了 的 边缘 概率 密度 为 fy(y) ,给 定 对 于 任 
意 固定 的 z, 对 于 任意 es>0, 考 虑 条 件 概率 PXS y<Y¥<yte}, KR Ply<¥<yte}>0, 
则 有 


Flay) dy dz 
WE ae Pe Sate — LL 
j ET TAr Ody 


(1.17) 
在 某 些 条 件 下 , 当 e 很 小 时 , 式 (1. 17) 右 端 分 子 、 分 母 分 别 近似 于 。 | f(z,y)dz 和 
efy(y), 于 是 当 e 很 小 时 ,有 








e| zy)dz 
P{X< Y< =| fey 
(X<2ly<¥<yte)~ -| aD 


因此 , 设 二 维 随机 变量 (X,Y) 的 概率 密度 为 fCz,y),(X,Y) 关 于 和 关于 Y 的 边缘 概率 
密度 分 别 为 fxr frry) BOF AEN y, fy Cy) >0, WR Erd 为 在 Y=y 的 条 
件 下 X 的 条 件 概率 密度 , 记 为 


fxylz | y) = pos (1.19) 
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车 对 于 固定 的 =, fx (z) 之 0, 则 称 AO 为 在 X 一 的 条 件 下 了 的 条 件 概率 密度 ， 


记 为 
fax | a) = Fae (1. 20) 
1.3.6 边缘 独立 与 条 件 独 立 
1. 边缘 独立 
设 (X,Y) 的 联合 分 布 为 P(X,Y) ,边缘 分 布 为 P(X) 和 PC(Y) , 若 式 (1. 21) 成 立 , 即 
P(X,Y) = P(X) > P(Y) (1. 21) 


则 称 X SY ACHR) Thy. 
2. 条 件 独 立 


EIEE X,Y,Z, i P(Z=z)>0, Y zENz, WAC. 22) R, BI 
P(X,Y,Z) = P(X | Z)P(Y | Z) (1. 22) 
则 称 X 和 了 在 给 定 2 时 相互 条 件 独立 。 


13.7 贝 叶 斯 定理 


贝 叶 斯 定理 又 称 为 贝 叶 斯 规则 或 贝 叶 斯 公式 。 设 HME 为 两 个 随机 变量 , H=h HH 
一 假设 ,下 一 e 为 一 组 证 据 。 在 考虑 证 据 E=e 之 前 ,对 事件 Ah 的 概率 估计 PCH Sh) 
为 先 验 概率 ,而 在 考虑 证 据 之 后 ,对 Hh 的 概率 估计 己 ( 互 一 /| 下 一 e) 称 为 后 验 概率 。 贝 叶 
斯 定理 描述 了 先 验 概率 和 后 验 概率 之 间 的 关系 , 即 


P(H = h)P(E=e|H =A) 


ae (1, 23) 


P(H =h|E=e) = 
14 信息 论 的 相关 基本 概念 


1.4.1 Jensen 不 等 式 
设 f AKER wa, p;,€ (0,1 ]G=1,2,-+,n),8 > p; 二 1, 则 对 任何 LEI, E 


f( dpe.) > Vasa (1. 24) 
i=l i=1 


E 7 了 为 区 间 上 严格 止 函数 , 则 式 (1. 24) 的 等 号 只 在 下 列 条 件 满足 时 才 成 立 : 若 p e pj, AO, 
则 必 有 Li T Tj o l 


1.4.2 $% 
一 个 离散 随机 变量 X R HOO HORE OH 
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H(X) = DP Xb BER, 一 一 >)P(CX)lbP(CX) (1. 25) 
X 


POD 
其 中 约定 Olb 二 一 0。 通 常 选 用 e 为 对 数 的 底 。 


炉 是 对 随机 变量 的 不 确定 性 的 度量 ,随机 变量 X A ABA. BEA EB A A HE th Bi 
BK. 


1.4.3 KAJI, ew Fe Bee 


SBE 2S HE JE BIBER RCA EAR E RHE TARBE X 和 Y KAA E 


H(X,Y) = DUP CX, Y)lb == -2 P(X, Y)IbP(X,Y) (1. 26) 


"ES Ho 

Pi PIF PA RS AE A AR B — 个 延伸 。 随机 变量 X BY HB FE A E ABE A Aa 
P(X) 来 定义 的 。 如 果 知 道 男 一 个 随机 变量 Y 的 取 值 为 >, 那 么 X 的 后 验 分 布 即 为 PCX|Y=y). 
利用 此 条 件 分 布 可 以 定义 给 定 Y 一 > 时 和 的 条 件 箭 为 


= = = ae 
H(X | Y=) DIP(X |Y lb EXT Y= yp (1, 27) 


Wi 五 (X) 度 量 的 是 随机 变量 X 的 不 确定 性 ,条 件 炉 玉 (XIY==y) 度 量 的 则 是 已 知 Y==y 
后 ,X 的 不 确定 性 。 
对 于 式 (1. 28) , 即 
H(X,Y) = H(X)+ H(Y | X) = H(Y) + H(X | Y) (1. 28) 
PKA a AY EBL MY 。 
在 观测 到 Y 以 前 ,X 的 不 确定 性 是 互 (X), 通 过 观测 Y, 期 望 X 的 不 确定 性 会 变 为 
五 (XIY) ,因此 ,H(X) 与 H(X|Y) 之 差 
I(X;Y) = H(X) — H(X | Y) (1, 29) 
就 是 对 Y 包含 多 少 X 的 信息 的 一 个 度量 , 称 之 为 了 关于 X 的 信息 。 可 以 证 明 ,T(X;Y) = 
T(GY;X) 成 立 , 因 此 它 又 称 为 X 和 了 之 间 的 互信 息 。 
对 任意 两 个 离散 随机 变量 XAY, AR. 30) 成 立 , 即 


P(X,Y) 


P(X) PCY) didi 


I(X;Y) = >)PCX,Y)lb 
X,Y 


对 于 3 个 离散 随机 变量 , 式 (1. 31)., 即 
I(X;Y | Z) = H(X | Z) — H(X | Z,Y) (1. 31) 
BABE ZHY AFX 的 信息 。 容 易 证 明 ICX;Y|Z)=1(Y;X|Z), FÆ ICX;Y|Z) bh 
为 给 定 Z 时 ,XX 和 YY 之 间 的 条 件 互 信息 。 


1.4.4 Fast 


对 定义 于 随机 变量 X 的 状态 空间 Q; 上 的 两 个 概率 分 布 P, (X) 和 P,(X) ,可 以 用 相对 
炉 来 度量 它们 之 间 的 差异 , 即 有 


KL(Pi,P;) = VPCX)Ib BO 
x 


P,(X) (1. 32) 
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其 中 ,0lb =0, plb Pi =o, Y p>0. KLP, P) CREW Pı (X) AM P:(X) 之 间 的 
2 
Kullback-Leibler 距离 。 但 值得 注意 的 是 ,KL(Pi,P;) 去 KL(P; ,Pi)。 


1.5 生成 模型 与 判别 模型 


假设 有 观察 值 序列 Y= (Yi Y, eae Yn? , 求 其 对 应 的 状态 序列 x= CX, » Xz gene Xan) Wy 
实际 上 就 是 求 出 状态 序列 X” ,使 得 条 件 概率 pX Xo ,… Xa 1 Vi Yor Yn) RAE, B 
X* = arg maxx, ,xm,X P (Xi Xo 0° Xn | Ya (1. 33) 


1, 生成 模型 


生成 模型 (Generative Models) 不 直接 对 p(X: X2 和 X, [Yi Y> gena oY ) 进 行 建 模 9 而 


是 先 对 其 进行 变换 ,构建 联合 概率 p(X, »X2 gases Xp 4 Yo oes »Y,„) » 即 
p(X, 9X29 RY Ye 9 Yn) 
po”, sYoott*o Yn) 


= pY: DT | Kisar gA) x p(X, X23, Xn) 
plYi YY,) 


p(X, Xo yy Xn | Y, Yoo sYa) 一 


(1. 34) 
在 给 定 观察 值 序 列 的 前 提 下 ,其 出 现 的 概率 是 一 定 的 ,所 以 式 (1. 33) 可 以 由 式 (1. 35) 得 
出 , 即 
X* = arg maxx, ,xx P (Xi X25 Xn | Yi Ya ，…Y，) 
= arg maxx, ,xy.,x, P (Y1 Ya Yn | Xi ,Xs ,KX,) < 力 (XXXo) (1.35) 
生成 模型 认为 观察 值 是 由 状态 生成 的 。 由 生成 模型 的 定义 可 知 , 隐 马尔 可 夫 模 型 是 一 
种 典型 的 生成 模型 。 


2. 判别 模型 


判别 模型 (Discriminative Models) 克 服 了 生成 模型 的 独立 性 假设 ,其 直接 对 条 件 概 率 
POX X25 XY ,YY,) 进 行 建 模 ,这 就 是 说 ,在 给 定 观察 序列 的 条 件 下 ,寻找 最 可 
能 的 状态 序列 的 时 候 , 条 件 分 布 可 以 直接 使 用 。 

由 于 判别 模型 自身 的 特点 ,因此 可 以 融合 各 种 特征 到 模型 中 ,使 它 成 为 一 类 适合 序列 标 
注 的 模型 。 常 见 的 判别 模型 有 最 大 炉 模 型 MEM、 条 件 随机 场 模型 CRF 等 。 显 然 , 生 成 模 
型 和 判别 模型 有 着 明显 的 区 别 , 下 面 对 生 成 模型 和 判别 模型 进行 对 比 。 

D 统计 建 模 方式 不 同 。 生 成 模型 构建 联合 分 布 p(X,Y) ; 判别 模型 构建 条 件 分 布 
力 (X|Y) 。 

(2) 训练 时 二 者 优化 准则 不 同 。 生 成 模型 优化 训练 数据 的 联合 分 布 概率 ; 判别 模型 优 
化 训练 数据 的 条 件 分 布 概率 。 判 别 模型 与 序列 标记 问题 有 较 好 的 对 应 性 。 

C3) 对 于 观察 序列 的 处 理 不 同 。 生 成 模型 中 ,观察 序列 作为 模型 的 一 部 分 ; 判别 模型 
中 ,观察 序列 只 作为 条 件 ,因此 可 以 针对 观察 序列 设计 灵活 的 特征 。 
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(4) 训练 复杂 度 不 同 。 判 别 模 型 训练 复杂 度 较 高 。 

(5) 是 否 支 持 无 指导 训练 。 生 成 模型 支持 无 指导 训练 。 

(6) 生成 模型 假设 观察 值 之 间 具 有 严格 的 独立 性 ,认为 观察 值 是 由 状态 生成 的 。 不 能 
融合 各 种 特征 和 表达 长 距离 依赖 关系 。 而 判别 模型 认为 观察 值 (特征 ) 决 定 状态 ,克服 了 生 
成 模型 的 严格 独立 性 假设 ,可 以 融合 各 种 特征 到 模型 中 。 


第 2 章 
概率 图 模型 的 基本 原理 


2.1 概述 


不 同 的 概率 图 模型 可 以 分 成 3 类 : 有 向 概率 图 模型 .无 向 概率 图 模型 和 混合 概率 图 模 
型 。 有 向 概率 图 模型 的 典型 代表 是 隐 马 尔 可 夫 模 型 . 贝 叶 斯 网 络 和 动态 贝 叶 斯 网 络 ; 无 向 
概率 图 模型 的 典型 代表 是 马尔 可 夫 随 机 场 和 条 件 随机 场 ; 混合 概率 图 模型 的 典型 代表 是 链 
图 。 这 些 概 率 图 模型 刻画 了 随机 变量 间 不 同 的 条 件 独 立 关 系 。 有 向 概率 图 模型 通常 用 来 表 
示 随 机 变量 间 的 因果 关系 ,而 无 向 概率 图 模型 用 来 建立 随机 变量 间 的 空间 相互 关系 或 者 是 
相互 依赖 性 。 有 向 概率 图 模型 和 无 向 概率 图 模型 只 能 表示 随机 变量 的 同一 类 关系 ,而 混合 
概率 图 模型 却 可 以 表示 不 同类 型 的 关系 。 

由 于 有 向 概率 图 模型 和 无 向 概率 图 模型 被 广泛 使 用 ,本 章 重点 对 这 两 种 模型 的 基本 原 
理 、 学 习 与 推理 算法 进行 阐述 。 


2.2 有 向 概率 图 模型 


有 向 概率 图 模型 (Directed Probabilistic Graphical Model) 使 用 有 向 边 连接 不 同 的 结 
点 ,这 些 有 向 边 通常 表示 了 结 点 间 的 因果 关系 。 在 有 向 概率 图 模型 中 , 隐 马 尔 可 夫 模 型 、 贝 
叶 斯 网 络 和 动态 贝 叶 斯 网 络 被 广泛 的 使 用 。 


2.2.1 隐 有 马尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 是 20 世纪 60 年 代 末 70 年 代 初 提出 
来 的 一 种 基于 马尔 可 夫 源 或 可 尔 可 夫 链 概率 函数 的 统计 信和 号 模型 , 它 是 一 种 用 参数 表示 的 ， 
用 于 描述 随机 过 程 统计 特性 的 概率 模型 。 隐 马尔 可 夫 模 型 经 常 被 用 作 建 立 随 时 间 变 化 的 随 
机 变量 概率 分 布 模型 。 | 

HMM 的 理论 基础 是 由 Baum 等 人 建立 起 来 的 ,随后 由 CMU 的 Baker 和 IBM 的 
Jelinet 等 将 其 应 用 到 语音 识别 领域 。 由 于 Bell 实验 室 的 Rabiner 等 在 20 世纪 80 年 代 中 期 
对 HMM 的 深入 浅 出 的 介绍 , 才 逐 渐 使 HMM 被 世界 各 国 研究 人 员 所 了 解 和 熟悉 ,进而 成 
为 公认 的 一 个 研究 热点 。 特 别 是 在 近 些 年 HMM 可 以 为 不 同 信号 建 模 的 特点 ,以 及 在 语音 
信号 处 理 上 的 成 功 ,并 且 拥 有 经 典 的 训练 和 寻 优 算法 ,使 得 很 多 研究 人 员 开 始 尝试 将 HMM 
用 于 目标 识别 、 人 脸 识 别 及 OCR 等 领域 。 
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1. HMM 的 理论 基础 一 一 马尔 可 夫 链 


Markov( 马 尔 可 夫 ,1856 一 1922) ,俄国 数学 家 , 师 从 大 数学 家 切 比 雪夫 , 执教 于 圣 彼 得 
堡 大 学 ,1896 年 被 选 为 圣彼得堡 科学 院 院士 。1907 年 马尔 可 夫 提 出 了 “马尔 可 夫 链 ”一 一 一 
种 能 用 数学 分 析 方 法 研究 自然 过 程 的 一 般 方式 ,开创 了 对 一 种 无 后 效 性 的 随机 过 程 一 一 “ 马 
尔 可 夫 过 程 ? 的 研究 。 马 尔 可 夫 链 是 马尔 可 夫 随 机 过 程 的 特殊 情况 , 即 马尔 可 夫 链 是 状态 和 
时 间 参 数 都 离散 的 马尔 可 夫 过 程 。 从 数学 上 ,可 以 给 出 以 下 定义 : 

随机 序列 X, 在 任 一 时 刻 z, 它 可 以 处 在 状态 0. ，…,0n, 且 它 在 mth 时 刻 所 处 的 状态 
K dati HR, AGE m 时 刻 的 状态 qa 有关, 而 与 m 时 刻 以 前 它 所 处 状态 无 关 , 即 有 

PiX ger | Xn = Qas Xni = Gea X = qi) 


— P(X mir = Qmtk | Xm = qm) (2. 1) 
其 中 ?G1 902 9°°° 9Qm amt E (A, 202 s0n) » WEK Xn 为 马尔 可 夫 链 ,并 且 称 
P; (m,m + k) = Plama = 0; | qm = 0:) (2. 22 


为 k 步 转移 概率 。 其 中 ,1<i,j 二 N,m、k 为 正 整 数 。 当 Pi (m,m 十 &) 与 m 无 关 时 , 称 这 个 
马尔 可 夫 链 为 齐 次 马尔 可 夫 链 ,此 时 有 

Pi (ay712 十 &) = P; (hk) (2. 3) 

以 后 若 无 特 别 声明 ,马尔 可 夫 链 就 是 指 齐 次 马尔 可 夫 链 。 当 & 王 1 时 , Pi (1) 称 为 一 步 

转移 概率 ,简称 为 转移 概率 , 记 为 a; 。 所 有 转移 概率 aj (1<i,j 二 NN) 可 以 构成 一 个 转移 概 


率 矩 阵 , 即 
ayn vee QIN 
mot. OF | (2. 4) 





HA 


0 入 几 和 1， Sag el 


HERB RS Pi (&) 可 由 转移 概率 0, 得 到 ,因此 ,描述 马尔 可 夫 链 的 最 重要 参数 
就 是 转移 概率 抢 阵 4。 但 4 矩阵 还 决定 不 了 初始 分 布 , 即 由 A 求 不 出 gi 二 0; 的 概率 ,这 样 ， 
完全 描述 马尔 可 夫 链 , 除 4 矩阵 之 外 ,还 必须 引进 初始 概率 矢量 x 二 (x ，… ,xw) ,其 中 
r 一 Po 一 0) 1<i<N (2.5) 
显然 有 
0<m<1, >)r 一 1 


实际 中 ,马尔 可 夫 链 的 每 一 状态 可 以 对 应 于 一 个 可 观测 到 的 物理 事件 。 比如 天 气 预 测 
中 的 雨晴 、 雪 等 ,那么 ,这 时 它 可 称 为 天 气 预报 的 马尔 可 夫 链 模型 。 根 据 这 个 模型 ,可 以 算 
出 各 种 天 气 ( 状 态 ) 在 某 一 时 刻 出 现 的 概率 。 


2. HMM 概念 


HMM 是 在 马尔 可 夫 链 的 基础 上 发 展 起 来 的 。 由 于 实际 问题 比 马尔 可 夫 链 模型 所 描述 
的 更 为 复杂 ,观察 到 的 事件 并 不 是 与 状态 一 一 对 应 ,而 是 通过 一 组 概率 分 布 相 联系 ,这 样 的 
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模型 就 称 为 HMM。 它 是 一 个 双重 随机 过 程 ,其 中 之 一 是 马尔 可 夫 链 ,这 是 基本 随机 过 程 ， 
它 描述 状态 的 转移 。 另 一 个 随机 过 程 描述 状态 和 观察 值 ,不 像 马尔 可 夫 链 模型 中 的 观察 值 
和 状态 一 一 对 应 ,因此 ,不 能 直接 看 到 状态 ,而 是 通过 一 个 随机 过 程 去 感知 状态 的 存在 及 其 
特性 。 因 而 称 之 为 “< 隐 ” 马 尔 可 夫 模 型 , 即 HMM, 

fil tn, A ABRAM GL (Ball and Urn) 实 验 ,就 很 好 地 说 明了 隐 马 尔 可 夫 模 型 。 

设 有 个 缸 ,每 个 红 中 装 有 很 多 颜色 的 球 , 球 的 颜色 由 一 组 概率 分 布 描述 。 实 验 是 这 
样 进行 的 ,根据 某 个 初始 概率 分 布 , 随 机 地 选择 NN 个 缸 中 的 一 个 ,如 第 对 个 缸 , 再 根据 这 个 
缸 中 彩色 球 颜 色 的 概率 分 布 ,随机 地 选择 一 个 球 , 记 下 球 的 颜色 , 记 为 O,, 再 把 球 放 回 缸 中 ， 
又 根据 描述 缸 的 转移 的 概率 分 布 , 随 机 选择 下 一 个 缸 。 例 如 ,第 7 个 缸 ,再 从 缸 中 随机 选 一 
个 球 , 记 下 球 的 颜色 , 记 为 Os ,一 直 进 行 下 去 。 可 以 得 到 一 个 描述 球 的 颜色 的 序列 O, 
Oz ,…, 由 于 这 是 观察 到 的 事件 ,因而 称 之 为 观察 值 序列 。 但 缸 之 间 的 转移 以 及 每 次 选取 球 
的 缸 被 隐藏 起 来 了 ,并 不 能 直接 观察 到 。 而 且 , 从 每 个 缸 中 选取 球 的 颜色 并 不 是 与 缸 一 一 对 
应 ,而 是 由 该 缸 中 彩 球 颜色 概率 分 布 随机 决定 的 。 此 外 ,每 次 选取 哪个 缸 则 由 一 组 转移 概率 
所 决定 。 球 与 缸 试验 如 图 2. 1 所 示 。 


缸 1 &12 LN 
Pabn Pba Psry=bm 
Pb Pba 已 蓝 六 PN 
Pgb Pogy=bo3 Pigy=bn3 
Phim Pabam P bnm 


图 2.1 RAHA 


下 面 给 出 HMM 的 定义 ,或 者 说 ,一 个 HMM 可 以 由 下 列 参 数 描述 : 
(1) 模型 中 马尔 可 夫 链 状态 数目 N: 记 六 个 状态 为 06，…,bgv， 记 上 时 刻 马 尔 可 夫 链 所 
处 状态 为 gq,, 显 然 g, 属于 (0 ,0，…,Ov) 。 在 球 与 红 实 验 中 的 所 就 相当 于 状态 。 
《2) 每 个 状态 对 应 的 可 能 的 观察 值 数 目 M: 记 M 个 观察 值 为 Vl，… ,Vu, 记 :时 刻 观察 
到 的 观察 值 为 0,, 其 中 O, 属于 (ww ,…，,Vw)。 在 球 与 算 实 验 中 所 选 彩 球 的 颜色 ,就 是 观 
察 值 。 
(3) 初始 状态 概率 矢量 x : x =m, snn), HEP 
m: 一 PC 一 0) l1<i<N (2. 6) 
TERS i Se PHBA A ESE TS 
(4) 状态 转移 概率 矩阵 4: A= (ay) nxn KH 
ay = Plan = 0; lq 50) l1<i,j<N (2.7) 
EER 5 fil SE We PSB SE SE 4 Be HA BS ARF BF 9. 
(5) 观察 值 概率 矩阵 了 如: 假设 观测 变量 的 样本 空间 为 V, 在 状态 0 时 输出 观测 变量 的 概 
率 分 布 可 表示 为 B= (bp )nxm ;其 中 
bx = PCO, =V, |q =0;) 1<j<N31<k<M (2. 8) 
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其 中 ,O, 为 时 刻 上 的 观测 随机 变量 ,可 以 是 一 个 数值 或 向 量 ,观测 序列 记 为 0 一 {0 ,Ce ,…， 
O,}。 值 得 注意 的 是 ,此 处 观测 变量 的 样本 空间 和 概率 分 布 可 以 为 离散 型 ,也 可 以 为 连续 型 。 
在 球 与 纪实 验 中 ,bj 就 是 第 j 个 红 中 球 的 颜色 & 出 现 的 概率 。 
综 上 可 知 ,要 描述 一 个 完整 的 HMM ,需要 模型 参数 (N,M,x ,4,B)。 为 了 简化 ,常用 
下 面 的 形式 来 表示 , 即 
A= (N,M,x ,A,B) (2. 9) 
或 简写 为 
à = (x , A,B) (2. 10) 
2. 2 可 以 更 形象 地 说 明 隐 马尔 可 夫 模型 的 定义 。HMM 可 分 为 两 部 分 ,一 个 是 马尔 
可 夫 链 ,由 x A 描述 ,产生 的 输出 为 状态 序列 , 另 一 个 是 一 个 随机 过 程 ,由 B 描述 ,产生 的 输 
出 为 观察 值 序列 ,如 图 2. 2 所 示 。 丁 为 观察 值 时 间 长 度 。 


qi 42," 随机 过 程 | O1- O02…,Or 
ee ar 观察 值 序列 
图 2.2 HMM 组 成 示意 图 
图 2. 3 出 示 了 一 个 简单 的 第 一 定律 隐 马 尔 可 夫 模 型 ,图 中 X 是 隐 状 态 变量 ,Y 是 观测 
变量 ,观测 结 点 提供 了 相应 隐 结 点 的 基本 的 局 部 信息 。 隐 马尔 可 夫 模 型 假设 隐 状 态 随机 变 
量 的 分 布 形 成 了 马尔 可 夫 链 。 对 于 第 一 定律 隐 马 尔 可 夫 模 型 , 当 给 定 父 结 点 , 隐 状 态 变量 是 


条 件 独 立 于 其 他 父 结 点 。 基 于 模型 中 给 定 的 条 件 独 立 关系 ,所 有 结 点 的 联合 概率 公式 可 表 
示 为 





PC{X;,Y:}21) 一 PCOXD)PC7 | xo TIP, | X44) PCY; | X;)] (2.11) 


式 中 ,P(X;|X;- ,) 为 各 时 间 片 隐 结 点 间 的 转移 概率 ， PCY; | X;) 为 观测 结 点 的 似 然 概 率 ; 
P(Xi) 为 XY 结 点 的 先 验 概率 。 l 


2.3 一 个 简单 的 第 一 定律 隐 马 尔 可 夫 模 型 





3. HMM 基本 算法 


标准 隐 马 尔 可 夫 模 型 在 实际 应 用 中 要 解决 3 个 基本 问题 ， 即 评估 问题 ,解码 问题 和 学 
习 问 题 。 

问题 1 给 定 观察 序列 0 二 O1,O,,…,Or 和 4 二 (x ,A4,B) ,计算 PCO/X) , 即 给 定 模型 和 
输出 观察 序列 ,如何 计算 从 模型 生成 观察 序列 的 概率 。 可 以 把 它 看 作 是 评估 一 个 模型 和 给 
定 观 察 输出 序列 的 匹配 程度 ,由 此 可 以 用 来 在 一 系列 候选 对 象 中 选取 最 佳 的 匹配 。 

问题 2 ”给 定 观 察 序列 O=O, ,O; ,… ,Or 和 模型 1, 求 在 某 种 有 意义 的 情况 下 最 优 的 相 
关 状 态 序 列 Q = 二 gq? ,q?，… ,qi? ， 即 最 好 地 解释 观察 情况 。 该 问题 可 以 理解 为 对 输出 观察 
的 最 佳 “ 解 释 ”, 它 试图 揭示 模型 的 隐藏 部 分 ,比如 说 查找 “正确 ”的 状态 序列 ,在 应 用 中 ,通常 
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都 使 用 一 个 优化 策略 来 最 大 可 能 地 解决 这 个 问题 。 

l 问题 3 ”怎样 调整 模型 参数 4 一 (x ,4,B) ,使 P(O/A) 最 大 ? 它 试图 优化 模型 的 参数 来 
最 佳 地 描述 一 个 给 定 的 观察 序列 是 如 何 得 来 的 。 

这 三 大 基本 问题 的 解决 过 程 与 方法 , 即 是 HMM 实际 应 用 的 过 程 与 方法 。 下 面 针 对 以 
上 3 个 问题 ,给 出 HMM 的 3 个 基本 算法 描述 。 

1) 前 向 -后 向 算法 

这 个 算法 是 用 来 计算 给 定 一 个 观察 值 序列 O=O, ,0, ,…,Or 及 一 个 模型 4 二 (x ,A,B) 
时 ,由 模型 1 产生 出 O 的 概率 已 CO/)) 。 


P(COAA) 最 直接 的 求 取 方法 如 下 : 
对 一 个 固定 的 状态 序列 S=q; q2 °°° QT ,有 
P(O/S,a) = [| PCO,/q. A) = by, (O01)6,, (Oz) **by, (Or) (2. 12) 
t=1 
其 中 
ba, (O.) = bn lq = 00; = Vi 1<t<T (2.13) 


而 对 给 定 的 4, 产 生 S 的 概率 为 


: PCS/A) = to, aaa ao ar (2. 14) 
因此 ,所 求 概率 为 
P(O/A)= >}P(O/S,a) P(S/a) 
sS 
= 2) naba (OLA, a ba (Oz) ag, arba (Or) (2.15) 


91 ,92 9 17 


显而易见 , 式 (2. 15) 的 计算 量 是 十 分 惊人 的 ,大 约 为 2TNT 数量 级 , 当 N=5,T=100 
时 ,计算 量 达 10” ,这 是 完全 不 能 接受 的 。 在 此 情况 下 ,要 求 出 P(O/A) 还 必须 寻求 更 有 效 的 
算法 ,这 就 是 Baum 等 提出 的 前 向 -后 向 算法 。 : i 

(1) 前 向 算法 。 定 义 前 向 变量 为 


a (i) = P(O,,O,,°"", bsg =O: lad IS&T (2.16) 
那么 ,有 以 下 过 程 。 
a. 初始 化 , 即 
ai (i) =7b,00,) 1<i<N (2.17) 
b. 递归 , 即 
N 
am (G) = [Ze Das Om Le (2. 18) 
i=] 
c. 终结 , 即 
N 
P(O/A) = Jar) (2.19) 
i=l 
其 中 
b; (Ons) bis lows =V, (2. 20) 


这 种 算法 计算 量 大 为 减少 , 变 为 NCN 十 1)(T 一 1) 十 N 次 乘法 和 NCN 一 1)(T 一 1) 次 加 
法 。 同 样 ,N 一 5,T 一 100 时 ,只 需 大 约 3000 次 计算 (乘法 ) 。 这 种 算法 是 一 种 典型 的 栅 格 结 
构 ,如 图 2.4 Bra. 
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| m ! 


afi) Qm()) 1 2 3 观察 时 刻 t T 
(a) (时刻 递归 关系 (b) 栅 格 结构 
图 2.4 前 向 算法 示意 图 


(2) 后 向 算法 。 与 前 向 算法 类 似 , 定 义 后 向 变量 为 


RD = P(O O° ,Or | 9 = GA) 1<t<T-l1 (2. 21) 
HP Br) =1. 
类 似 地 ,有 以 下 过 程 。 
a. 初始 化 , 即 
Bri)=1 1<i<N (2. 22) 
b. 递归 , 即 


N 
BG) = J ajbi Onpa G t= T—1,T—2;)%,1; 1<i<N (2. 23) 
j=1 
È; 终结 , 即 


P(O | )) 


N 
DRD (2. 24) 
i=l 


后 向 算法 的 计算 量 大 约 在 N TAER ,也 是 一 种 栅 格 结构 。 

2) Viterbi 算法 

这 个 算法 解决 了 给 定 一 个 观察 值 序列 0==O, ,O, ,… ,Or 和 一 个 模型 1 一 (r , A, BB), FE 
最 佳 的 意义 上 确定 一 个 状态 序列 Q 二 gr og? oat 的 问题 。 

“最 佳 ? 的 意义 有 很 多 种 ,由 不 同 的 定义 可 得 到 不 同 的 结论 。 这 里 讨论 的 最 佳 意义 上 的 
状态 序列 Q* ,是 指使 P(Q,O1X) 最 大 时 确定 的 状态 序列 Q. Viterbi 算法 可 以 叙述 如 下 : 

定义 6.C 让 为 时 刻 t 时 沿 一 条 路 径 q1,q:，… ge A gq 二 0;, 产 生出 O ,0O;,…,O, 的 最 大 概 
率 , 即 有 


(i) = max P(qi Qo qq = 0;,0O01 023,0, | A) (2. 25) 
那么 , 求 取 最 佳 状 态 序列 Q* 的 过 程 如 下 。 
a. 初始 化 , 即 
64) = mb: O) 1<i<Nn (2. 26) 
a@=0 1<ic<N (2. 27) 
b. 递归 , 即 


òC) = max [ð CDa; (0. 2<t<T;1<j<N (2. 28) 
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g.(j) = arg max[0 1(i)as |] 25t<T; 1<j<N (2. 29) 
1<i<N 
Cs 终结 , 即 
P* = max[6r(i) ] (2. 30) 
1<i<N 
qi = arg max[6r (i)] (2.31) 
1Xi<N 


d. 状态 序列 求 取 ; 即 
g = palda) t=T—1, T21 (2. 32) 


应 当 指 出 , Viterbi 算法 的 一 个 副产品 P* 一 maxP(Q,OIA) 和 前 向 -后 向 算法 计算 出 的 
P(OIM)= >) P(Q,0|aA 之 间 的 关系 为 : P(Q,O1A) 动 态 范围 很 大 ,或 者 说 不 同 的 Q 使 
Q 
P(Q,OIX) 的 值 差 别 很 大 ,而 maxP(Q,OIA) 事 实 上 是 >) P(Q,OIM) 中 举足轻重 的 唯一 成 分 ,因此 ， 
Q 


常常 等 价 地 使 用 maxP(Q,O|X) 和 S)P(Q,0| A), ABA, Viterbi 算法 也 能 用 来 计算 POI). 
Q 


此 外 ,上 述 的 Viterbi 算法 也 是 一 种 栅 格 结构 ,而 且 类 似 于 前 向 算法 。 同 样 ,由 后 向 算法 
的 思想 出 发 , 亦 可 推导 出 Viterbi 算法 的 另 一 种 实现 方式 。 

3) Baum-Welch 算法 

这 个 算法 实际 上 是 解决 HMM 训练 , 即 HMM 参数 估计 问题 ,或 者 说 给 定 一 个 观察 值 
序列 O=O, ,O; ,… ,Or ,该 算法 能 确定 一 个 4 二 (x A,B) ,使 PODRA. 

显然 ,由 式 (2. 16) 和 式 (2. 21) 定 义 的 前 向 和 后 向 变量 ,有 


N N 
PCO|A) = >) DalDasb Ondan G 1<t<T-1 (2. 33) 


i=1 j=1 


这 里 , 求 取 4, 使 P(OIX) 最 大 ,是 一 个 泛 函 极 值 问 题 。 但 是 ,由 于 给 定 的 训练 序列 有 限 ， 
因而 不 存在 一 个 最 佳 的 方法 来 估计 ^*。 在 这 种 情况 下 ,Baum-Welch 算法 利用 递归 的 思想 ， 
使 P(O|) 局 部 极 大 ,最 后 得 到 模型 参数 A 二 (x ,4,B)。 此 外 ,用 梯度 方法 也 可 以 达到 类 似 
目的 。 

定义 &(i,7) 为 给 定 训 练 序列 O 和 模型 1 时 ,时 刻 t 时 马尔 可 夫 链 处 于 0; RA AAT Zl 
t 十 1 为 b 状态 的 概率 , 即 

&(i,j) = P(O,g, = Bg = 0; | à) (2. 34) 

可 以 推导 出 

&(i,j) = [a (iab; (Our) Bi Gi) 1/PCO | a) (2. 35) 
那么 ,时 刻 t 时 马尔 可 夫 链 处 于 90; 状态 的 概率 为 


N 
6G) = P(O,g =0|2) = DEGi,)) = a GB Ci)/PCO | a) (2. 36) 
j=l 


因此 ， Yew 表示 从 0 状态 转移 出 去 的 次 数 的 期 望 值 , 而 DEG BRIO 状态 转移 


到 0; 状态 的 次 数 的 期 望 值 。 由 此 ,导出 了 Baum-Welch 算法 中 著名 的 重 估 (Reestimation) 公 
式 , 即 
m= & (i) (2. 37) 


3 Tl 
ay = Dec/ De (2. 38) 
t=1 t=1 
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by = Si Ew (2. 39) 
‘ t=1H0,=V, t=1 
那么 ,HMM SŽ A= (r ,4,B) 的 求 取 过 程 为 : 根据 观察 值 序 列 O 和 选取 的 初始 模型 
4 二 (x ,A,B) ,由 重 估 式 (2. 37) 、 式 (2. 38) 和 式 (2. 39) , 求 得 一 组 新 参数 元 .az 和 6 jx , 亦 即 得 
到 了 一 个 新 的 模型 A= (元 ,及 ,五 ) ,可 以 证 明 ,P(OIM) 之 P(OIA) , 即 由 重 估 公 式 得 到 的 比 ， 
在 表示 观察 值 序列 O 方面 要 好 。 那 么 ,重复 这 个 过 程 ,逐步 改进 模型 参数 ,直到 PCOlAK 
敛 , 即 不 再 明显 增 大 ,此 时 的 4 即 为 所 求 的 模型 。 
应 当 指 出 ,HMM 训练 或 称 参数 估计 问题 ,与 前 面 讨论 的 两 个 问题 相 比 ,是 最 困难 的 一 
个 问题 ,Baum-Welch 算法 只 是 得 到 广泛 应 用 的 解决 这 一 问题 的 经 典 方法 ,但 并 不 是 唯一 
的 ,也 远 不 是 最 完善 的 方法 。 


4. HMM 算法 实现 中 的 基本 问题 


1) 初始 模型 选取 

根据 Baum-Welch 算法 由 训练 数据 得 到 HMM 参数 时 ,如 重 估 式 (2. 37) 、 式 (2. 38) 和 
式 (2. 39) ,一 个 重要 问题 就 是 初始 模型 的 选取 。 不 同 的 初始 模型 将 产生 不 同 的 训练 结果 。 
因为 算法 是 使 P(O|X) 局 部 极 大 时 得 到 的 模型 参数 ,因此 ,选取 好 的 初始 模型 ,使 最 后 求 出 
的 局 部 极 大 与 全 局 最 大 接近 ,是 很 有 意义 的 。 

但 是 ,至 今 这 个 问题 仍 没有 完美 的 答案 。 实 际 处 理 时 都 是 采用 一 些 经 验方 法 。 一 般 认 


为 ,x 和 A 参数 初 值 选 取 影 响 不 大 ,可 以 随机 选取 或 均匀 取 值 ,只 要 满足 Oa <1, Di ay =1, 


j=l 


0<m<1, b> ri 一 1 要 求 的 约束 条 件 即 可 。 但 B 的 初 值 对 训练 出 的 HMM 影响 较 大 ,一般 


倾向 采取 较为 复杂 的 初 值 选取 方法 。 基于 这 种 考虑 ,一 种 典型 的 HMM 参数 估计 过 程 如 
图 2:9 所 示 。 


模型 初始 化 


A 














FAViterbi iy 
i 求 状态 序列 


根据 状态 序列 
p 估计 b1(X) 
重 估 公式 


图 2.5 一 种 HMM 参数 估计 方法 示意 图 






这 里 ,初始 模型 4 可 以 任意 选取 。 但 因为 有 P(Oli) 之 P(OIA) RUA Ba 改进 后 的 模 
型 。 再 将 4 作为 初始 值 用 重 估 公式 ,得 到 4+。 这 样 就 避免 了 初 值 的 选择 不 当 , 变 经 典 的 AA 
为 XX。 当然 , 沿 图 2. 5 中 虚线 ,不 用 重 估 公 式 ,1 也 可 近似 作为 模型 参数 。 
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2) 多 个 观察 值 序列 训练 

实际 中 ,训练 一 个 HMM ,经 常 是 用 到 不 止 一 个 观察 值 序列 ,那么 ,对 于 工 个 观察 值 序列 
训练 HMM 时 ,要 对 Baum-Welch 算法 的 重 估 公式 (2. 37) 、 式 (2. 38) 和 式 (2. 39) 加 以 修正 。 
设 工 个 观察 秩序 列 为 O? (1 二 1,… ,LL), 其 中 O =O}? ,O88 ,…,O% ,假定 各 个 观察 值 序列 


独立 ,此 时 有 





L 
P(O|a) = [[ Pco® | a (2. 40) 
l=1 
由 于 重 估 公式 是 以 不 同事 件 的 频率 为 基础 的 ,因此 ,对 工 个 训练 序列 , 重 估 公式 修正 为 
L 
元 一 D aP DRP G)/PCO” | 1<i<N (2.41) 
l=1 
| Tl 
D Dy a? ay; (OM BP I /PCO | ad 
i = SS l<i;j<N (2. 42) 
D Sal? CWB? @/PCO® | a) 
l=] t=1 
L T, 


: 1<j<N;1<k<M (2. 43) 
D De? WK? /PON | a) 
1 


一 1 t= 


3) 比例 因子 问题 

在 前 向 -后 向 算法 和 Baum-Welch 算法 中 ,都 有 a,(i) 和 BBCi) 的 递归 计算 ,因为 所 有 量 都 
小 于 1, 因此 ,a,(i)( 随 着 zt 的 增加 ) 和 pB,(i)( 随 着 zi 的 减少 ) 都 迅速 趋向 于 零 , 为 了 解决 这 种 
下 游 (Underflow) 问 题 , 必 须 采取 增加 比例 因子 (Scaling) 的 方法 ,对 有 关 算 法 加 以 修正 ,处 





理 过 程 如 下 。 
(1) 对 a 的 处 理 。 
Ql Ci) = mib; CO, ) 1 < 1 < N (2. 44) 
ai i) = HO a ZIEN (2. 45) 
Dai) i 
i=1 
N 
ani =| Dyer Cay fo, (On) 1l<j<QN; t = 1,2,,T—1 (2. 46) 
i=l 


N A 
alin) = am G/D amn G) = am /Bn 1<ij<N;t=1,2,%,T—1 (2.47) 


Ia 


(2) 对 有 8 的 处 理 。 
Pri) =1 1<i<N (2. 48) 
prG)=1 1<i<N (2. 49) 
N 
BG) = J ajb; (ODB GD 1<i< Ns t=T-1,51 (2. 50) 
j=l 


BD=BD/G 1<i< Np t=T—1,,51 (2.51) 
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8.2 基于 主动 贝 叶 斯 网 络 的 电 


图 8.6 客户 
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一 个 重要 分 析 角 度 
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图 8.7 
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用 等 级 评估 模型 
言 企 业 决 策 支 持 系统 中 进行 客户 总 量 分 析 


IA 


险 分 析 和 客户 欺 
准确 地 评估 客户 信用 等 级 ,可 以 解决 在 复杂 的 用 户 消 费 群 体 中 良 劳 
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连续 HMM 可 以 认为 是 HMM 的 一 种 一 般 形式 ,连续 HMM 和 离散 HMM 都 是 其 特例 。 
而 且 , 半 连续 HMM 在 一 定 程度 上 兼 有 二 者 的 长 处 。 因 为 , HMM 对 连续 矢量 使 用 离散 
HMM 信息 丢失 较 大 ,但 是 如 果 使 用 连续 的 HMM, 需 要 使 用 较 多 的 概率 密度 函数 进行 混 
合 , 模 型 复杂 ,运算 量 大 ,并 且 需 要 使 用 更 多 的 训练 数据 才能 得 到 可 靠 的 模型 。 如 果 对 图 2. 2 
所 示 的 第 一 部 分 ,也 就 是 由 x A 描述 的 马尔 可 夫 链 加 以 修正 ,就 可 以 得 到 另外 3 种 主要 的 
HMM, Ell; 利用 Gibbs 分 布 取代 马尔 可 夫 链 的 HMM; 在 马尔 可 夫 链 中 加 入 状态 驻 留 时 间 
参数 的 HMM; 二 阶 HMM。 此 外 ,还 有 其 他 一 些 形式 的 HMM 存在 于 各 个 应 用 领域 ,在 此 
AE BER 


2.2.2 贝 叶 斯 网 络 
1. 概念 


贝 叶 斯 网 络 (Bayesian Network,BN) 一 般 是 指 带 有 概率 信息 的 有 向 无 环 图 (Directed 
Acyclic Graph,DAG)。 贝 叶 斯 网 络 的 信息 由 两 部 分 组 成 : 首先 是 表示 条 件 独 立 性 信息 的 
一 种 自然 方式 一 一 网 络 结构 S,S 中 的 每 一 结 点 表示 特定 域 中 的 一 个 概念 或 变量 ,在 结 点 间 
的 连接 (有 向 弧 ) 表 示 了 可 能 的 因果 关系 ,体现 了 域 知识 定性 方面 的 特征 ; 其 次 ,每 一 结 点 都 
附 有 与 该 变量 相 联 系 的 条 件 概率 分 布 肾 数 (Conditional Probability Distribution, CPD), 4 
果 变 量 是 离散 的 , 则 它 表现 为 给 定 其 父母 结 点 状态 时 该 结 点 取 不 同 值 的 条 件 概 率 表 
(Conditional Probability Table, CPT). CPT 体现 了 域 知 识 定 量 方面 的 特征 。 可 见 , 贝 叶 
斯 网 络 是 一 种 表示 数据 变量 间 潜 在 关系 的 定性 定量 的 方法 , 它 使 用 这 种 图 形 结构 指定 了 一 
组 条 件 独立 的 声明 和 用 于 刻画 概率 依赖 强度 的 条 件 概 率 的 数字 值 。 图 2. 6 显示 了 一 个 简单 
的 贝 叶 斯 网 络 。 


P(C=F) P(C=T) 
0.5 0.5 


C pa a Cc [i — 
x [a 
. : T [i 2 A ; 


S R|P(W=F) P(W=T) 





FF| 10 0.0 
T F| 0.1 0.9 
F T| 0.1 0.9 
T T| 0.01 0.99 


2.6 一 个 贝 叶 斯 网 络 的 例子 


HFN 叶 斯 网 络 表示 了 因果 过 程 的 总 体 结构 , 故 它 可 被 看 作 是 拥有 许多 不 同 组 合 的 一 
个 抽象 知识 库 。 它 的 语义 可 以 从 两 方面 来 理解 : 一 方面 是 将 网 络 看 作 一 种 联合 概率 分 布 的 


2.2 有 向 概率 图 模型 23 





表示 , 即 BNs 完整 .紧凑 地 表示 了 网 络 中 各 变量 的 联合 概率 分 布 ; 另 一 方面 将 网 络 看 作 条 
件 独 立 性 声明 集合 的 一 种 表示 。 这 两 种 观点 实质 上 是 等 价 的 ,而 且 在 贝 叶 斯 网 络 的 表达 ,学 
习 .推理 算法 中 都 得 到 统一 。 假 设 一 组 有 限 集合 {Yi ，…,Y,} 表 示 一 组 离散 随机 变量 ,它们 
分 别 取 值 {y; ，…,y} 的 联合 概率 为 

PCy s Yn) = Pyn | Yer 9s Py | Yee sttt snide P Cy | yD PO) 


= I| Po: | yi，…，y1) (2.61) 
i=1 


在 不 确定 信息 领域 ,条 件 独立 性 是 种 构造 知识 重要 的 、 和 鲁 棒 的 方法 。 在 贝 叶 斯 网 络 
中 ,人 们 断言 每 一 结 点 在 给 定 其 父母 结 点 后 都 条 件 独立 于 它 的 前 辈 结 点 , 故 有 


Pyrs Ya) = [[ Poy: | Paty) (2. 62) 
i=1 


式 中 ,Pa(yi) 己 {yi 1，"…,Y1) 是 结 点 y; 的 父母 结 点 组 ,它们 的 取 值 已 知 , 可 见 在 联合 概 
率 空间 中 的 每 一 状态 都 可 用 贝 叶 斯 网 络 中 条 件 概率 表 的 适当 元 素 的 乘积 来 表示 。 

当 贝 叶 斯 网 络 作为 分 类 器 时 , 设 某 领域 中 类 别 空间 为 C= {cr coset ,ci) ,特征 空间 为 
X=<X , 义 , ,… Xn 记 ,每 个 特征 变量 的 值 域 为 Val(X;) (iEL1…m]) ,特征 变量 的 取 值 用 
小 写字 母 x;(i€E [1…mj) 表 示 。 对 某 一 实例 x 二 二 zi ,zz，… ,zn 二 来 说 ,分 类 的 目的 就 是 通 
过 学 习 一 定 的 训练 样本 集 D, 来 获得 它 的 类 别 标 注 c。 贝 叶 斯 网 络 分 类 器 采用 表达 式 
max {plci1x)} 来 决定 它 的 类 别 , 其 中 : 


pla) X [| 26s; | ci;x (Zz;)) 
f p(x) 

式 中 ,x(z;) 为 结 点 Xi 除 类 别 结 点 C 之 外 的 所 有 父 结 点 ; cz, 为 实例 x Bi 个 特征 的 取 值 。 
所 以 ,学 习 贝 叶 斯 网 络 分 类 的 任务 是 从 训练 样本 集 D 中 学 习 概 率 分 布 函数 : plc), 
pla; lcis GE], j Eem]. l 

在 这 个 学 习 任 务 中 ,包括 两 个 过 程 : 一 是 对 于 每 一 特征 结 点 找到 除 类 别 结 点 之 外 的 所 
有 父 结 点 ,也 就 是 学 习 贝 叶 斯 网 络 的 结构 ; 二 是 在 已 知 结构 的 基础 上 ,获得 这 些 参 数 的 估 
计 , 即 参数 学 习 问 题 。 


2. 几 种 常用 贝 叶 斯 网 络 分 类 器 


1) 朴素 贝 叶 斯 网 络 

朴素 贝 叶 斯 网 络 (Naive Bayesian Networks，NBN) 是 贝 叶 斯 
网 络 中 最 简单 的 一 种 。 它 将 类 别 结 点 作为 根 结 点 ,其 各 属性 结 点 相 G) 
互 独立 , 且 都 以 类 别 结 点 为 父 结 点 。 其 结构 如 图 2.7 所 示 。 

采用 朴素 贝 叶 斯 分 类 器 , 分 类 任务 即 转化 成 了 , 已 知 x,, CO) O (9 
Xz，…,X，, 的 值 , 求 p(X. | Xi ,XX;,…,X,) 最 大 时 Xe。 的 取 值 问题 ， 图 2.7 朴素 贝 叶 斯 网 络 
根据 贝 叶 斯 公式 , 即 


(Xo | XX Xn) 一 


ple | x) = (2. 63) 


pC Xx, X: X, | Xj) p(X) A plX1X,…X, | Xj) p(X,) 
力 (X1X2z…X，) 和 
Dd) PCR XX, | Xa) p(Xa) 


i=1 





(2. 64) 
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式 中 ,p(X。) 为 先 验 概率 。 
由 于 Xi ,X:,…，,X, 相互 独立 ,根据 链 规则 有 


DX: Xoe X, | Xs) = [[ 2: | Xa) (2. 65) 
i=1 


由 以 上 公式 求 得 后 验 概 率 , 比较 后 验 概率 的 大 小 ,可 求 得 最 大 后 验 概率 时 对 应 的 Xu 
值 , 即 完成 分 类 任务 。 

朴素 贝 叶 斯 分 类 器 虽然 简单 ,但 在 实验 中 表现 出 的 分 类 能 力 与 经 典 的 C4. 5 分 类 器 不 
相 上 下 。 然 而 ,由 于 其 对 属性 变量 间 的 独立 性 要 求 较 强 ,在 实际 中 较 难得 到 满足 。 

2) 通用 贝 叶 斯 网 络 

通用 贝 叶 斯 网 络 (General Bayesian Networks,GBN) 是 将 类 结 点 和 属性 结 点 作为 同等 
地 位 的 网 络 结 点 ,根据 数据 集中 的 数据 训练 出 贝 叶 斯 网 络 , 直接 作为 分 类 器 的 。 用 通用 贝 叶 
斯 网 络 分 类 器 进行 分 类 的 过 程 , 实 际 上 就 是 将 属性 结 点 作为 证 据 结 点 引入 到 贝 叶 斯 网 络 中 ， 
求 得 类 结 点 各 取 值 后 验 概率 的 过 程 。 后 验 概率 最 大 时 ,类别 结 点 相应 的 取 值 , 即 作为 分 类 的 
结果 ,如 图 2. 8 Pra. 

在 通用 贝 叶 斯 网 络 中 ,把 某 结 点 的 父 结 点 、 子 结 点 及 子 结 点 的 父 结 点 称 为 该 结 点 的 马尔 
可 夫 覆 盖 。 根 据 有 向 马尔 可 夫 性 质 , 某 结 点 各 取 值 的 概率 只 受 其 马尔 可 夫 和 覆盖 结 点 的 影响 ， 
而 与 其 余 结 点 无 关 。 

3) 增强 型 朴素 贝 叶 斯 网 络 

增强 型 朴素 贝 叶 斯 网 络 (Tree-Augmented Naive Bayes,TAN) 是 朴素 贝 叶 斯 网 络 进行 
有 效 改进 的 分 类 器 , 它 既 有 朴素 贝 叶 斯 分 类 器 的 简单 性 ,又 有 比 朴 素 贝 叶 斯 分 类 器 更 好 的 分 
类 性 能 。TAN 是 由 Friedman 提出 的 一 种 树 状 结构 模型 , 它 是 朴素 贝 叶 斯 分 类 器 的 自然 扩 
展 , 如 图 2.9 Bra. 


Js OB 


图 2.8 通用 贝 叶 斯 网 络 图 2.9 增强 型 朴素 贝 叶 斯 网 络 


其 基本 思想 是 将 贝 叶 斯 网 络 的 某 些 表示 依赖 关系 的 能 力 与 朴素 贝 叶 斯 的 简易 性 相 结 
合 , 使 分 类 性 能 增强 。 

令 品 二 (Xi,X:,…,X,,X.), 其 中 变量 X Xe X, 是 属性 变量 ,Xe. 是 类 变量 。 在 
TAN 结构 中 ,类 变量 是 根 ,没有 父 结 点 , 即 Pa(X.) 二 BC(Pa(X.) 表 示 Xe 的 父 结 点 集 ) ,类 变 
量 是 每 个 属性 变量 的 父 结 点 , 即 X.E Pa(X;) [Pa(X;) (i 二 1,2,…,n) 表 示 X: 的 父 结 
点 集 ]。 

属性 变量 X 除了 类 变量 X。 作为 其 父 结 点 外 ,最 多 有 一 个 其 他 属性 变量 作为 其 父 结 
点 , 即 Pa(X;)=2. 

因此 ,确定 TAN 分 类 模型 的 结构 关键 是 如 何 确定 每 个 属性 结 点 的 非 类 父 结 点 ,确定 属 
性 结 点 的 父 结 点 需要 学 习 算 法 来 完成 。 目 前 ,标准 TAN 分 类 器 的 构造 有 两 种 方法 ,一 种 是 


2.2 有 向 概率 图 模型 25 





由 Friedman 提出 的 基于 分 布 的 构造 算法 5@] , 另 一 种 是 由 Eamon 和 Pazzanil®™ 提出 的 基于 
分 类 的 构造 算法 。 

4) 马尔 可 夫 毯 贝 叶 斯 网 络 

马尔 可 夫 毯 贝 叶 斯 网 络 (Markov Blanket Bayesian Networks, MBBN) 是 由 M. G. 
Madden 于 2002 年 提出 的 一 种 贝 叶 斯 网 络 分 类 算法 。 它 能 表示 出 与 通用 贝 叶 斯 网 络 分 类 
器 中 相同 的 关于 类 结 点 的 完整 马尔 可 夫 毯 ,尽管 通 用 贝 叶 斯 网 络 可 以 被 用 来 进行 分 类 任务 ， 
但 是 由 于 类 结 点 不 是 被 特殊 看 待 ,在 类 结 点 的 马尔 可 夫 毯 以 外 的 其 他 结 点 网 络 与 分 类 任务 
并 不 相关 ,因而 整个 网 络 结构 进行 分 类 预测 准确 性 不 高 。 另 外 ,3 个 简单 的 贝 叶 斯 网 络 , 即 
朴素 贝 叶 斯 .增强 型 朴素 贝 叶 斯 ,GBN ,也 可 以 用 来 进行 分 类 预 
测 ,但 是 这 些 结构 中 都 假设 分 类 变量 是 根 结 点 ,忽略 了 类 结 点 的 
父 结 点 。 然 而 MBBN 并 没有 这 种 假设 , 比 这 3 种 贝 叶 斯 网 络 分 
类 器 有 更 加 丰富 的 结构 表达 ,这 便于 更 加 准确 地 进行 因果 分 析 和 
分 类 预测 。Madden 在 文献 [63] 中 比较 了 朴素 贝 叶 斯 .TAN.、 
GBN 和 MBBN 这 4 种 贝 叶 斯 分 类 器 的 分 类 性 能 ,结果 显示 
MBBN 在 预测 速度 和 准确 性 方面 比 其 他 3 种 分 类 器 有 相当 或 更 “图 2 10 STA 
好 的 效果 ,MBBN 如 图 2. 10 所 示 。 叶 斯 网 络 

MBBN 的 结构 学 习 算 法 如 下 : 

步骤 1 在 除 ze 的 结 点 中 找 ze 的 父 结 点 集 zy ,孩子 结 点 集 = 和 不 相关 结 点 集 zno M 
父 结 点 因子 6. 大 于 孩子 结 点 因子 6. 时 ,加 结 点 x; Bz, 否则 到 ze; 当 max(6; ,6.) 二 1 时 ,加 
x; Bz, 





其 中 : 
ð = as = web (2. 66) 
6. = gion U de (2. 67) 
q; r; 
_ T (r:— 1)! f | 
g(x; 5x) = I WW, frat Ll Nw! (2. 68) 


Xx; 和 x。 分 别 表示 结 点 x; 和 ze 的 父 结 点 集 ; r 表示 的 xz; 取 值 数目 ; Ns 是 第 i 个 结 点 ， 
取 值 为 第 个 值 时 ,在 父 结 点 取 值 组 合 取 第 7 个 值 时 数据 的 数目 。 

步骤 2 使 用 K2 算 法 ( 见 2.2. 2 NA) ERR zx。 和 xz 的 结 点 中 找 z 结 点 的 父 结 点 。 

步骤 3 使 用 TAN 算法 ,在 z 中 找 每 个 结 点 的 另 一 个 父 结 点 ,因为 最 多 只 能 找 一 个 父 
结 点 ,所 以 这 一 步 所 得 的 结构 是 近似 的 网 络 结构 ,更 具体 的 算法 说 明 请 见 文献 [63] 。 


2.2.3 动态 贝 叶 斯 网 络 


贝 叶 斯 网 络 反 映 的 是 事物 的 静态 特性 ,而 现实 生活 中 ,存在 着 很 多 的 动态 随机 过 程 , 动 
态 贝 叶 斯 网 络 (Dynamic Bayesian Networks, DBNs) 是 用 来 对 这 些 过 程 进行 建 模 的 方法 
之 
这 里 的 “动态 ”表明 了 建 模 的 对 象 是 一 个 动态 的 系统 ,而 不 是 系统 的 结构 随时 间 发 生变 
化 。 由 于 动态 贝 叶 斯 网 络 为 有 向 图 ,并 且 对 于 每 一 个 结 点 参数 的 估计 可 以 相对 独立 地 进行 ， 
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所 以 其 易于 推导 和 学 习 , 并 在 近 些 年 受到 了 广泛 的 关注 。 

DBNs 是 针对 动态 序列 建 模 问 题 提 出 的 。 一 个 典型 的 DBNs 如 图 2.11 所 示 。 从 图 中 可 
以 看 出 ， DBNs 服从 马尔 可 夫 特 性 : t 时 刻 系统 的 所 有 变量 的 概率 分 布 只 与 1 一 1 时 刻 系统 
的 状态 变量 概率 分 布 相关 。 








图 2. 11 DBNs 的 图 模型 表示 


设 Z, 王 (U,,X,,Y,) 代 表 一 个 状态 空间 模型 的 所 有 变量 集合 ,U, 代表 输入 变量 集 ,X, 代 
表 隐 状态 变量 集 ,Y, 代表 输出 变量 集 , 系统 是 离散 时 间 随 机 过 程 ,那么 一 个 动态 贝 叶 斯 网 络 
由 一 个 初始 网 B 和 转换 网 B. 组 成 , 即 (B1,B.)。 图 2. 12 给 出 了 一 个 动态 贝 叶 斯 网 络 的 
简单 例子 。 初 始 网 B 是 一 个 贝 叶 斯 网 络 , 它 指定 了 随机 过 程 的 初始 条 件 概 率 分 布 P(Zi)。 
转换 网 B. 是 含有 两 个 时 间 片 、 由 两 个 贝 叶 斯 网 络 组 成 , 它 对 所 有 时 间 点 1,2,… ,zt 指定 从 时 
间 点 1 一 1 到 时 间 点 +t 属性 集 状态 的 转换 概率 P(Z,|2Z,1)。 根 据 有 向 无 环 图 (DAG)[ 见 
图 2.12(b)] ,得 下 面 公式 , 即 


N 
DCZ: | Za) = [[2(Z | Patzi) (2. 69) 
i=l 


式 中 ,Zi 为 时 刻 上 的 贝 叶 斯 网 中 第 ; 个 结 点 , 即 U,、X, 或 者 Y, 其 中 之 一 的 一 个 结 点 ; Pa(2:) 
为 ZZ 的 父 结 点 集 的 取 值 ; 第 一 个 时 间 片 BN 中 的 结 点 之 间 没 有 任何 相关 参数 ,第 二 个 时 间 
片 的 BN 中 结 点 之 间 存 在 相关 的 条 件 概率 分 布 CPD, 这 定义 了 观测 条 件 概 率 分 布 pC Zi | Pa 
(21)) A> 1) ,这 些 CPD 的 形式 是 任意 的 ; 这 里 假设 条 件 概率 分 布 的 参数 是 不 随时 间 变 化 
的 ,并 且 转 移 概率 PC(Z,|2Z,_1) 也 是 时 不 变 的 。 


(a) 定义 关于 属性 U、X、7Y 的 DBN (b) 相应 的 “展开 ” 贝 叶 斯 网 
初始 网 和 转换 网 


图 2.12 贝 叶 斯 网 及 时 间 片 的 展开 
一 个 动态 贝 叶 斯 网 络 定义 了 在 动态 随机 过 程 中 无 穷 变化 轨迹 上 的 概率 分 布 。 实 际 上 ， 


一 般 只 在 有 穷 时 间 间 隔 1,2,…,T 上 推理 ,那么 可 以 把 一 个 动态 贝 叶 斯 网 络 展开 成 在 Z,， 
Zs，…,Zr 上 的 “长 > 贝 叶 斯 网 络 。 图 2. 12(b) 给 出 了 图 2. 12(a) 所 示 的 动态 贝 叶 斯 网 展开 3 
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个 时 间 片 的 相应 贝 叶 斯 网 。 给 定 动态 贝 叶 斯 网 络 B 一 (Bi Ba) HE 2Z1,2,,…,Zr 上 的 联合 
概率 分 布 可 以 通过 初始 网 和 转换 网 指定 的 概率 分 布 简化 表示 为 


T N 
22,24) = [| [[ pCZ: | Patz) (2. 70) 
t=1 i=l 


完全 确定 DBNs 需要 知道 3 个 概率 分 布 : 状态 转移 条 件 分 布 P(Z,|2Z,-1)、 观 测 条 件 分 
布 PCZ:|Pa(2Z:)) 和 初始 状态 分 布 P(Z1)。 所 有 的 条 件 分 布 可 以 是 时 变 的 或 定常 的 , 可 以 
取 参 数 化 形式 PCzi|zx,-1;90), 也 可 以 使 用 非 参 数 化 (概率 表格 或 统计 直方 图 ) 表 示 。 

隐 马 尔 可 夫 模 型 和 卡尔 曼 滤 波 模 型 就 是 两 种 典型 的 状态 空间 模型 。 因 为 它们 简单 和 灵 
活 而 成 为 研究 随机 过 程 的 主要 方法 。 例 如 , 隐 马 尔 可 夫 模 型 已 经 被 应 用 在 语音 识别 和 生物 
序列 分 析 中 ; 卡尔 曼 滤 波 模型 应 用 于 跟踪 飞机 和 导弹 的 轨迹 及 经 济 预测 等 。 然 而 HMMs 
和 KFMs 都 受 限 于 其 表达 知识 的 能 力 上 ,然而 动态 贝 叶 斯 网 络 作为 带 有 时 间 参 数 的 贝 叶 斯 
网 络 可 以 克服 其 这 个 缺点 。 动 态 贝 叶 斯 网 络 能 够 用 一 个 有 N 个 变量 的 集合 来 表达 隐 状 
态 ,X:，…,Xea, 即 分 布 式 的 状态 表达 ;相反 , 隐 马 尔 可 夫 模 型 隐 状 态 的 表达 是 一 个 有 M 个 
可 能 的 离散 变量 X,。 动 态 贝 叶 斯 网 络 允 许 条 件 概 率 分 布 是 任意 的 ,而 卡尔 曼 滤波 模型 要 求 
条 件 概率 分 布 必须 是 线性 -高 斯 分 布 。 另 外 , 隐 马 尔 可 夫 模 型 和 卡尔 曼 滤波 模型 的 拓扑 结 
WAR ,而 动态 贝 叶 斯 网 络 允 许 有 更 多 样 的 图 形 结构 。 实 际 上 , 隐 马 尔 可 夫 模型 和 卡尔 曼 滤 
波 模型 可 以 作为 动态 贝 叶 斯 网 络 的 特例 。 


2.3 无 向 概率 图 模型 


无 向 概率 图 模型 (Undirected Probabilistic Graphical Model) 使 用 一 个 无 向 图 建立 随机 
变量 之 间 的 关系 模型 。 无 向 链接 通常 捕捉 一 对 结 点 之 间 的 相互 依赖 关系 。 马 尔 可 夫 随 机 场 
(Markov Random Fields,MRFs) 和 条 件 随机 场 (Conditional Random Fields,CRFs) 是 两 种 
无 向 概率 图 模型 ,其 被 广泛 应 用 在 图 像 处 理 、 目 标识 别 、 图 像 分 割 和 纹理 合成 等 计算 机 视觉 
领域 。 


2.3.1 马尔 可 夫 随 机 场 


马尔 可 夫 随 机 场 (MRF) ,也 叫做 马尔 可 夫 网 ,由 于 其 对 变量 空间 关系 及 上 下 文 独立 关 
系 建 模 的 灵活 方便 的 特性 ,受到 了 计算 机 视觉 研究 领域 的 高 度 关注 。 图 像 分 析 是 马尔 可 夫 
随机 场 应 用 最 广泛 的 领域 ,一 些 重要 的 研究 工作 包括 1986 4 J. Besag 发 表 的 On the 
statistical analysis of dirty pictures 以 及 2004 年 S. Geman 在 PAMI 期 刊 上 发 表 的 
Stochastic relaxation, gibbs distributions, and bayesian restoration of images 文章 。 

马尔 可 夫 随 机 场 是 关于 一 组 有 马尔 可 夫 性 质 随 机 变量 X 的 全 联合 概率 分 布 模型 。 马 
尔 可 夫 网 络 类 似 贝 叶 斯 网 络 用 于 表示 依赖 关系 。 但 是 ,一 方面 , 它 可 以 表示 贝 叶 斯 网 络 无 法 
表示 的 一 些 依赖 关系 ,如 循环 依赖 ; 另 一 方面 , 它 不 能 表示 贝 叶 斯 网 络 能 够 表示 的 某 些 关 
系 , 如 推导 关系 。 马 尔 可 夫 网 络 的 原型 是 Ising 模型 ,最 初 是 用 来 说 明 该 模型 的 基本 假设 。 


1. 条 件 独 立 性 
在 马尔 可 夫 网 络 中 ,关于 独立 的 性 质 有 这 样 的 结论 : 如 果 Xs 把 XA AX “SRF, A 
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给 定 Xs 时 ,Xa 与 Xc 相互 独立 ,这 样 的 性 质 也 称 为 马尔 可 夫 性 。“ 分 割 ? 开 是 指 的 图 论 意义 
上 的 “分 割 ? 开 ,如 图 2. 13 所 示 (Xs 是 图 的 一 个 点 割 集 ) 。 也 可 以 这 样 表达 ,如 果 从 Xs 中 的 
一 个 结 点 到 Xec 中 的 一 个 结 点 的 任意 一 条 路 径 都 至 少 包含 有 Xs 中 的 一 个 结 点 , 则 可 以 断言 
给 定 Xs 时 ,Xs 和 XXc 相互 独立 ; 否则 ,给 定 Xs 时 ,Xs MX 不 相互 独立 。 有 了 独立 性 定 
义 , 关 于 独立 性 检验 的 算法 就 变 得 非常 直接 : 只 需 把 Xs WBE, X, MX 是 否 相 互 独立 
就 可 以 通过 考察 是 否 存在 从 Xa 到 Xe 的 路 径 。 这 在 图 论 中 被 称 为 “连通 性 ”问题 
《Conectivity) 。 图 论 中 提供 了 标准 的 搜索 算法 。 





2.13 HAR Xs EX, 和 XXc“ 分 割 ” 开 


2. 联合 概率 分 布 
根据 Hammersley-Clifford 定理 和 局 部 马尔 可 夫 性 质 , 无 向 图 的 概率 分 布 可 以 被 定义 

为 下 面 Gibbs 公式 , 即 
P(x) = z [vez (2.71) 
FOP bc (zc) 是 一 个 关于 te 的 非 负 实数 函数 ( 实 值 函 数 ) ,通常 被 称 为 团 的 势 函 数 ,变量 
tc 属于 集合 C。Z 是 归 一 化 常数 (或 称 为 Partition Function), 其 取 值 为 Z= J) TT ye (xe)。 
在 马尔 可 夫 随 机 场 中 ,不 像 贝 叶 斯 网 那样 ,作为 局 部 条 件 和 边缘 分 布 ,每 个 归 一 化 常数 中 的 
势 函数 yc (zc) 没 有 方向 的 意义 。 这 一 方面 给 用 语义 定义 局 部 函数 带 来 了 更 多 的 灵活 性 ;但 


为 一 方面 , 它 又 包括 了 计算 归 一 化 常数 及 其 派生 函数 ,这 使 得 模型 学 习 和 推理 变 得 困难 。 
图 2. 14(a) 示 出 了 一 个 用 马尔 可 夫 随 机 场 为 图 像 的 空间 关系 所 建立 的 图 模型 。 


(a) MRF 





图 2.14 无 向 图 模型 
在 计算 机 视觉 领域 中 研究 和 应 用 马尔 可 夫 网 络 , 人们 感 兴趣 的 是 如 何 给 出 马尔 可 夫 网 


络 中 变量 的 联合 概率 分 布 。 另 外 ,对 非 规 则 结构 的 马尔 可 夫 网 络 模 型 的 研究 主要 集中 在 统 
计 领 域 ,如 对 数 一 线 性 模型 和 专家 系统 。 在 这 些 研究 中 ,人 们 更 为 关注 的 是 如 何在 一 个 给 定 
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的 马尔 可 夫 网 络 模型 中 进行 概率 推理 的 问题 。 非 规则 结构 的 马尔 可 夫 网 络 模型 在 应 用 中 常 
常 存在 两 个 问题 ,一 是 指定 网 络 中 所 有 变量 的 联合 概率 分 布 往往 是 困难 的 ,因为 其 中 的 参数 
缺少 明确 的 物理 意义 ,二 是 马尔 可 夫 网 络 模型 刻画 的 是 随机 变量 之 间 对 称 的 相关 关系 ,而 在 
许多 应 用 中 变量 之 间 的 相互 作用 并 不 具有 对 称 性 。 例 如 ,在 专家 系统 中 ,变量 之 间 往 往 具 有 
较为 明确 的 因果 关系 ,那么 如 何 描述 这 种 因果 关系 ,或 者 说 如 何 利用 此 因果 关系 来 建立 恰当 
的 模型 ? 对 这 种 因果 性 、 时 序 性 的 描述 ,使 用 贝 叶 斯 网 络 常常 是 适合 的 。 


2.3.2 条 件 随机 场 


最 近 , 在 语音 处 理 、 信 息 提取 和 计算 机 视觉 领域 ,对 结构 化 预测 问题 建立 判别 模型 受到 
了 广泛 的 关注 。 条 件 随机 场 (CRF) 就 是 这 些 最 成 功 的 判别 模型 之 一 , 它 在 图 像 分 割 .形状 分 
析 和 图 像 标 注 等 方面 优 于 生成 模型 ,如 马尔 可 夫 随 机 场 。 条 件 随机 场 是 一 种 无 向 图 模型 , 当 
给 定 观 测 值 ( 用 y 表示 )， 其 能 够 直接 表达 类 条 件 概率 分 布 ( 类 变量 用 x 表示 ), 即 


1 
P(x | y) = Zp [lte e) (2. 72) 


FEB cre» DAMM FRE xz, 同时 也 依赖 于 整个 观测 值 y。 图 2. 14(b) 示 出 了 用 
”CRF 对 图 像 空间 关系 建立 的 图 模型 。 

CRFs 同 MRFs 相 比 ,最 主要 的 优点 有 : CRFs 关注 于 最 终 的 预测 问题 ,避免 不 必要 的 
观测 密度 计算 ; CRFs 不 要 求 像 生成 模型 中 对 于 观测 变量 之 间 条 件 独立 关系 的 假设 。 并 且 
条 件 模型 的 优势 (如 较 低 的 渐进 预测 误差 ) 已 经 在 理论 上 与 实践 中 得 到 了 验证 。 


2.4 概率 图 模型 学 习 与 推理 


与 概率 图 模型 相关 的 两 个 主要 问题 是 学 习 和 推理 (Leaning and Inference) 。 模 型 的 学 
习 是 从 数据 中 学 习 模 型 的 结构 和 参数 ,而 推理 的 目的 是 对 给 定 的 模型 计算 边缘 分 布 和 条 件 
分 布 。 模 型 的 学 习 和 推理 都 涉及 算法 的 计算 复杂 度 , 一 般 来 讲 精确 的 学 习 和 推理 都 是 NP- 
Hard 问题 。 


2.4.1 模型 的 学 习 
概率 图 模型 的 学 习 包 括 结构 学 习 和 参数 学 习 两 个 方面 。 
1. 结构 学 习 


结构 学 习 (Structure Learning) 也 被 称 为 模型 选择 ,可 分 为 两 类 : 一 类 是 基于 评分 函数 
(Scoring Function) 的 学 习 ; 另 一 类 是 基于 独立 性 测试 (Conditional Independence Test, 
CIT) 的 学 习 。 基 于 评分 函数 的 学 习 是 用 一 个 预定 义 好 的 函数 作为 评分 标准 , 对 模型 结构 空 
间 中 所 有 的 模型 进行 评分 , 选 出 分 值 最 大 者 所 对 应 的 网 络 结构 作为 最 终 网 络 结构 。 常 用 的 
评分 函数 有 基于 贝 叶 斯 统计 的 BDe(Bayesian Dirichlet-Likelihood Equivalent)、 最 小 描述 长 
度 MDL (Minimum Description Length) 和 贝 叶 斯 信息 标准 BIC (Bayesian Information 
Criterion) 。 当 然 ,在 巨大 的 模型 空间 作 盲 目 搜索 ,要 得 到 最 终 的 网 络 结构 是 相当 困难 的 , 故 
而 常 采 用 贪心 策略 .模拟 退火 .最 优 最 先 等 算法 进行 搜索 。 基 于 独立 性 测试 的 学 习 是 通过 度 
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量 属性 之 间 的 独立 性 关系 ,确定 模型 结构 的 方法 ,常用 的 算法 有 CL 算法 、3 阶段 算法 等 。 基 
于 评分 函数 的 学 习 是 一 种 常用 的 方法 ,其 中 BIC 评分 函数 和 BDe 评分 函数 最 为 常 使 用 。 


2. 参数 学 习 


给 定数 据 集 的 概率 图 模型 参数 学 习 (Parameter Learning) 可 以 被 看 作 是 最 大 化 数据 似 
然 的 优化 任务 。 优 化 任务 的 复杂 性 往往 根据 不 同 的 因素 而 变化 ,如 数据 是 完全 观测 还 是 部 
分 观测 `. 是 有 向 图 还 是 无 向 图 ,推理 是 否 在 学 习 过 程 中 使 用 等 。 

在 完全 观测 数据 的 情况 下 ,学 习 一 个 有 向 贝 叶 斯 网 络 是 非常 容易 的 ,因为 它 要 求 父 - 子 
结 点 是 条 件 独立 ,这 经 常会 导致 一 个 闭 型 解 。 然 而 ,学 习 一 个 无 向 马尔 可 夫 模 型 是 非常 复杂 
的 ,因为 计算 分 割 函 数 存 在 一 定 的 困难 。 

` 当 数 据 不 完整 或 存在 隐 变 量 时 ,EM(Expectation-Maximization) 算 法 经 常 被 使 用 , 它 包 
含 两 个 步骤 : 第 一 步 是 E-step, 利 用 当前 网 络 结构 和 参数 对 缺失 数据 或 隐 变 量 计算 它 的 期 
望 值 ; 第 二 步 是 M-step, 基于 E-step 参数 的 期 望 值 ,计算 出 新 的 最 大 可 能 的 参数 分 布 9 ,用 
0 替换 原 有 的 9。 

EM 算法 也 被 广泛 应 用 到 不 完整 数据 的 结构 学 习 中 。 结 构 EM 算法 ,其 中 包含 相同 的 
E-step ,在 它 的 M-step, 基 于 当前 的 完整 样本 集 ,进行 模型 选择 , 即 评价 任意 一 个 候选 网 络 结 
构 ,其 网 络 结构 的 评价 函数 可 以 是 包括 BIC 评分 在 内 的 任意 一 个 评分 函数 ,那么 最 终 的 结 
构 应 该 是 分 值 最 高 的 。 


2.4.2 模型 的 推理 


设 一 个 由 个 变量 构成 的 联合 概率 分 布 表 达 了 该 n 个 变量 各 种 组 合 的 概率 值 , 若 每 个 
随机 变量 有 两 个 值 , 则 联合 概率 分 布 将 会 包含 2" 个 概率 值 ,要 计算 各 种 概率 值 ,就 可 以 通过 边 
缘 化 (Marginalization) 算 子 进行 边缘 概率 的 求 取 。 例 如 , 求 边缘 概率 PCY ) 可 以 按 式 (2. 73) 计 
算 , 即 

PO = X PCY ,Y;,,Y,) (2.73) 
其 中 >， 表示 对 集合 Y 中 去 掉 变 量 了 后 对 所 有 变量 求 和 。 

以 上 的 计算 概率 的 方法 虽然 简单 ,但 需要 完成 不 符合 实际 的 指数 式 求 和 运算 量 , 人 们 提 
出 了 很 多 简化 的 方法 。 虽 然 Cooper 在 1990 年 证 明 在 任意 贝 叶 斯 网 上 的 精确 推理 计算 是 
NP-Hard 的 ,但 是 在 实际 问题 中 往往 能 够 根据 不 同 的 贝 叶 斯 网 结构 寻找 到 一 种 方式 对 联 
合 概率 分 布 进行 参数 化 ,然后 在 参数 化 的 基础 上 寻找 局 部 化 的 计算 过 程 ,以 加 快 推理 计算 
速度 。 而 它们 之 间 的 不 同 之 处 在 于 每 种 方法 参数 化 的 方式 不 同 或 寻找 局 部 计算 的 途径 
不 同 。 


1. 精确 推理 


(1) 基于 网 络 结构 的 推理 

该 方法 是 利用 贝 叶 斯 网 络 的 条 件 独立 性 进行 推理 的 , 它 利用 了 网 络 的 结构 信息 , 令 联合 
概率 实现 了 局 部 化 。 下 边 以 一 个 例子 来 加 以 说 明 , 如 图 2. 15 所 示 。 

设 要 计算 出 条 件 概率 PC(fla,s,g,j), 可 以 由 贝 叶 斯 公式 得 
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Plfyasssgsi) PCpias，g)7) (2.74) 
Plass:g»j) XP (fa,s,gj) 
f 





PCF | Gyss3B 1) = 


由 链 规则 及 条 件 独 立 性 有 

Plf,a,s,g,j)=P(f)Pla) Pls)Plg|f)PGIf,a,s) 则 
P(f)P(a)P(s) P(g | PG | fass) (2. 75) 
SIP (MPa) P(s) P(g | PPG | frass) 
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络 时 ,还 是 较为 有 效 的 。 
T D 
CD C) 


图 2.15 一 个 用 于 推理 的 贝 叶 斯 网 例子 


(2) 精确 推理 的 其 他 算法 

现在 已 经 提出 了 多 种 精确 推理 的 方法 ,常用 的 有 图 形 简化 法 .证 据 扩 散 与 汇聚 算法 、 变 
量 消 元 法 、 联 合 树 算 法 等 。 图 形 简化 法 是 在 贝 叶 斯 网 图 形 上 的 结 点 消 元 来 模拟 边缘 概率 的 
计算 ,包含 结 点 删除 (Node Removal) AIL F (Arc Reversal) 两 个 过 程 ; 证 据 扩 散 与 汇聚 
算法 适用 于 单 连通 结构 的 贝 叶 斯 网 络 , 对 于 多 连通 结构 ,由 于 两 结 点 间 存 在 多 条 路 径 , 可 能 
会 使 证 据 传递 在 两 个 结 点 间 往 返 多 次 ; 变量 消 元 法 首先 根据 条 件 独立 将 联合 概率 分 解 为 多 
个 因子 项 ,然后 在 符号 层面 上 对 公式 进行 变换 ,改变 求 和 时 结 点 的 消 元 顺序 以 及 求 和 运算 与 
乘积 运算 的 先后 顺序 ,以 达到 减少 求 和 及 乘积 运算 量 的 目的 ,最 后 按 变换 后 的 公式 进行 逐步 
的 乘积 及 求 和 运算 以 得 到 待 求 结 果 ; 联合 树 算 法 在 无 证 据 的 条 件 下 ,变量 求 取 的 主要 思路 
是 将 贝 叶 斯 网 络 经 过 图 形变 换 变 成 联合 树 ,经 初始 化 后 ,即将 贝 叶 斯 网 络 的 条 件 概 率 表 转 化 
到 联合 树 中 ,得 到 转化 成 非 全 局 一 致 的 联合 树 ,通过 消息 传递 ,使 之 达到 全 局 一 致 ,最 后 通过 
边际 化 得 到 变量 结 点 的 分 布 。 当 有 证 据 时 ,流程 与 无 证 据 时 类 似 , 只 是 在 进行 初始 化 时 , 需 
要 加 入 观测 值 ,以 形成 非 全 局 一 致 的 联合 树 ,消息 传递 生成 一 致 的 联合 树 后 ,通过 边际 化 和 
正规 化 得 到 条 件 概率 分 布 。 





Pf | ass»s gj) = 


2. 近似 推理 


在 任意 结构 的 贝 叶 斯 网 络 上 的 精确 推理 都 是 NP-Hard 的 。 目 前 提出 了 多 种 近似 推理 
方法 ,这 些 算 法 采取 某 种 方式 ,在 运行 时 间 和 推理 精度 上 寻求 一 个 折衷 ,力求 在 短 时 间 内 给 
出 一 个 满足 精度 要 求 的 结果 。 贝 叶 斯 网 络 的 近似 推理 算法 主要 分 为 两 类 : 一 类 是 基于 仿真 
的 方法 ,通过 使 用 一 个 包含 随机 数 发 生 器 的 采样 装置 ,来 根据 需要 产生 一 组 样本 ,然后 通过 
对 样本 的 处 理 , 以 求 得 待 求 概率 的 近似 值 ,这 类 方法 都 是 基于 Monte Carlo 的 基本 思想 ; 另 
一 类 方法 是 基于 搜索 的 方法 ,该 方法 认为 概率 问题 是 一 类 组 合 问 题 ,可 以 将 所 需要 计算 的 各 
个 变量 的 不 同 组 合 看 作 一 个 状态 空间 。 这 个 空间 中 存在 一 些 状态 ,它们 对 最 后 的 计算 结果 
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会 产生 较 大 影响 ,而 另外 一 些 状态 则 影响 不 大 。 由 此 可 以 通过 启发 式 搜索 方法 ,在 整个 状态 
空间 中 进行 搜索 ,以 寻找 到 这 些 状态 。 从 而 以 这 些 状态 代替 整个 状态 空间 参与 运算 ,达到 提 
高 计算 效率 的 目的 ,并 能 得 到 较 精 确 的 解答 。 


2.4.3 计算 复杂 度 分 析 


对 于 简单 的 概率 图 模型 (如 那些 无 环 图 ) ,精确 推理 是 十 分 有 效 的 。 然 而 对 于 复杂 的 概 
率 图 模型 ,精确 推理 (如 变量 消 元 算法 、 信 和 度 传 播 算法 或 者 消息 传递 算法 ) 被 看 作 是 联合 树 推 
理 算 法 的 特例 。 

联合 树 算 法 需要 三 角 化 过 程 , 其 实质 上 是 找到 清除 结 点 连 线 的 顺序 。 找 到 优化 的 三 角 
化 过 程 被 认为 是 NP-Hard 问题 。 通 常 ,在 牺牲 一 定 的 准确 性 下 , 用 可 实现 的 近似 推理 算法 
来 解决 精确 推理 遇 到 的 困难 ,或 者 设 定 可 替代 的 伪 似 然 学 习 目 标 。 然 而 ,基于 近似 抽样 的 推 
理 方 法 经 常 出 现 慢 收敛 。 

在 完整 观测 数据 下 , 贝 叶 斯 网 络 的 参数 学 习 几 乎 是 不 可 实现 的 ,然而 用 部 分 观测 数据 学 
习 贝 叶 斯 网 络 或 者 是 马尔 可 夫 网 络 要 求 每 一 迭代 过 程 中 都 要 进行 推理 ,这 被 认为 是 NP- 
Hard 问题 。 并 且 ,结构 学 习 比 参数 学 习 还 要 复杂 得 多 。 一 些 理论 研究 已 经 显示 ,即使 学 习 
一 个 有 界 结构 的 模型 ,都 是 NP-Hard 问题 (例如 ,一 个 有 界 树 宽 的 马尔 可 夫 网 络 , 一 个 有 限 
父 结 点 数目 的 贝 叶 斯 网 络 和 Poly 树 ) 。 然 而 ,最 近 几 种 多 项 式 时 间 的 算法 已 经 被 提出 来 ,这 
些 算法 为 马尔 可 夫 网 络 和 因子 图 提供 了 较 好 的 近似 计算 "233]。 
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3.1 概述 


概率 图 模型 建 模 一 般 有 3 种 方法 : 依靠 专家 建 模 ; 从 数据 中 学 习 ; 从 知识 库 中 创建 。 
实际 建 模 过 程 中 常常 综合 运用 这 些 方法 ,以 专家 知识 为 主导 ,以 数据 库 和 知识 库 为 辅助 手 
段 ,扬长 避 短 ,发 挥 各 自 优势 ,来 保证 建 模 的 效率 和 准确 性 。 但 是 ,在 不 具备 专家 知识 或 知识 
库 的 前 提 下 ,从 数据 中 学 习 概 率 图 模型 显得 尤为 重要 。 

本 章 介 绍 了 在 完整 数据 集 下 有 向 概率 图 模型 的 学 习 方 法 。 完 整数 据 集 意味 着 数据 集中 
的 各 样本 属性 特征 数据 完整 ,样本 数据 独立 分 布 。 有 向 概率 图 模型 主要 以 贝 叶 斯 网 络 为 学 
IMR ,分别 从 结构 学 习 和 参数 学 习 两 个 方面 介绍 常用 的 学 习 方 法 。 

在 结构 学 习 方 面 常 用 的 方法 有 两 种 :一 种 是 基于 评分 函数 (Scoring Function) 的 学 习 ; 
另 一 种 是 基于 独立 性 测试 (Conditional Independence Test，CIT) 的 学 习 。 

在 参数 学 习 方 面 ,最 常用 的 方法 就 是 极 大 似 然 参 数 估计 和 贝 叶 斯 参数 估计 。 


3.2 结构 学 习 


3.2.1 基于 评分 -搜索 的 结构 学 习 


基于 评分 -搜索 的 结构 学 习 (Structure Scores) 主要 由 两 部 分 组 成 , 即 评分 函数 和 搜索 算 
法 。 常 用 的 评分 函数 包括 BDe 评分 函数 .MDL 评分 函数 和 BIC 评分 函数 。 搜 索 算 法 包括 
启发 式 局 部 搜索 算法 和 全 局 搜索 算法 。 


1. 评分 函数 


(1) BDe 评分 函数 

基于 BDe(Bayesian Dirichlet-Likelihood Equivalent) 评 分 函数 (BDe Score Function) 的 
结构 学 习 是 以 贝 叶 斯 统计 学 作为 理论 基础 的 , 它 的 主要 思想 是 : 在 假设 参数 分 布 的 条 件 下 ， 
计算 某 一 结构 相对 于 给 定数 据 集 的 后 验 分 布 ,将 该 分 布 作为 选择 结构 的 依据 , 找 出 后 验 分 布 
最 大 的 结构 。 

对 于 全 部 由 离散 变量 构成 的 贝 叶 斯 网 络 的 学 习 , 常 常 是 将 其 转化 为 一 系列 多 态 抽样 过 
程 来 进行 学 习 的 。 在 很 多 算法 的 研究 中 ,一般 选用 多 态 分 布 的 共 斩 分 布 Dirichlet 分 布 
作为 参数 9 的 先 验 分 布 。 
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Dirichlet 分 布 的 公式 为 
(Be) 
Dir(0 | aa var) =— [J a" ax > 0 (3.1) 
[[ rca“ 
k=1 
式 中 39Q1 929°" 9a, 为 超 参 数 ; TCs ) 为 伽 马 函 数 ， 定义 为 
Pind = [re “edt n>0 (3. 2) 


假设 数据 集 变量 均 为 离散 值 , Bo 表示 某 一 网 络 结构 ,由 贝 叶 斯 公式 可 以 得 到 


P(D | Be) P(Be) 
PCD) 


由 于 数据 集 的 先 验 概率 P(D) 都 相等 , 故 在 对 各 网 络 结构 进行 比较 时 ,可 以 不 予 考虑 ; 
P(Be) 是 网 络 结构 的 先 验 概率 ,可 以 将 它们 视 为 相同 ,所 以 要 计算 P(Bc|1D) 的 值 ,主要 需要 
计算 PCD1B6) ,在 无 隐 含 结 点 的 条 件 下 ,有 ” 


P(D | Bo) = | P(D | Be» Bp) f(Bp | Bo) dBp (3.4) 
P 


式 中 ,Bp 为 相对 Be 的 条 件 概率 分 布 向 量 ; fC ) 是 已 知 Bo 条 件 下 Bp 的 条 件 概 率 分 布 函 
数 。 若 数据 集中 含有 的 m 个 实例 XX;, 且 他 们 之 间 独 立 , 式 (3.4) 可 以 变 为 


P(D | Bo) = | [ijro | BoB) |f» | Bo) dBp i (3. 5) 
P k=1 


P(Be | D) = (3. 3) 


在 数据 集 完备 并 且 各 参数 9; 的 先 验 分 布 相互 独立 的 条 件 下 ,有 


P(D | Be) = TELL J Tw ro “Bie, 4851 dOs,, (3. 6) 


式 中 ,bx 为 在 X: BR k 个 值 , 其 父 结 点 取 第 j 个 组 合 值 时 的 概率 ;ax 是 对 应 于 入 的 实例 数目 。 
假设 f O51 O52 °° Dae, ) 服 从 Dirichlet 分 布 ， 则 可 以 得 到 BDe 评分 函数 计算 公式 为 


了 Ta; ) ICat ajr) 
Polo = TT pote se 5 Ur ice se Tan) (3.7) 


这 里 a 是 超 参 数 ,并 且 a = Yale eae = Ya DC + ) 是 伽 马 函 数 ,定义 如 前 所 述 。 


对 于 超 参 数 an 的 估计 是 非 线 性 的 ， 在 计算 上 有 很 大 困难 。 G. Cooper 和 E. Herskovits 
提出 可 以 采用 oe 二 1 来 进行 计算 ; 当然 还 可 以 用 其 他 方法 来 估计 ,这 里 不 再 蒙 述 。 

(2) MDL 评分 函数 

最 小 描述 长 度 MDL(Minimum Description Length) Æ Rissanen 在 研究 通用 编码 的 时 
候 提 出 来 的 。 假 如 给 定数 据 集 DD, 如 果 要 对 其 进行 保存 ,为 节省 存储 空间 ,可 以 采用 某 种 模 
型 对 其 进行 编码 压缩 ,然后 再 保存 压缩 后 的 数据 。 并 且 为 了 能 够 恢复 DD, 还 必须 存储 这 个 压 
缩 模型 。 因 此 ,需要 保存 的 数据 长 度 等 于 这 些 数据 进行 编码 压缩 后 的 长 度 加 上 保存 模型 所 
需 的 长 度 , 这 个 长 度 就 被 定义 为 总 描述 长 度 。MDL 原理 就 是 要 选择 总 描述 长 度 最 小 的 
模型 。 

在 数据 完备 的 条 件 下 ,总 的 描述 长 度 的 值 为 
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DL(G,D) © Ð) | Pa; | log: (m) +> >) | Pa | (| XI 一 DlogM 二 MY H(X; | Pa) 
7=1 i=1 i=l 


(3. 8) 
A, H(X; |Pa) X X; 对 于 Pa; AY FEE. . 
MDL 的 思想 就 是 最 小 化 DL(G, D) ,等 价 于 最 大 化 (一 DL(G,D)), 并 且 只 保留 了 随 M 
增长 的 因子 , 故 式 (3. 8) 可 以 进一步 简化 为 


—DL(G,D) ~— M), H(X; | Pa) —>) | Pa | (| X | 一 DlogM (3.9) 
i=] i=1 


式 中 ,M 为 数据 集 长 度 。 

MDL 评分 的 计算 过 程 中 没有 用 到 参数 的 先 验 值 ,不 需要 对 参数 进行 估计 ,在 这 一 点 
上 , 它 的 计算 比 BDe 评分 的 计算 简单 。 

(3) BIC 评分 函数 

BIC(Bayesian Information Criterion) 评 分 实质 上 是 对 BDe 评分 的 一 种 近似 计算 。 

在 实际 使 用 BDe 评分 时 ,一 般 不 是 直接 计算 PBe] D) ,而 是 求 它 的 对 数 logP(Be|D), 
BIC 评分 的 计算 公式 为 


logP(Bs | D) = logP(D | ĝe, Bc) — $logM (3. 10) 


式 中 ,d 为 高 斯 分 布 函数 的 维 数 , 即 其 中 的 变量 数目 ,对 于 贝 叶 斯 网 有 d= > |Pa; | (| X;|—1); 


M 为 数据 集 的 数目 ; 6c 为 PC(0c|D,Bo) 后 验 分 布 最 大 时 bc 参数 的 值 。 

BIC 评分 是 BDe 评分 在 数据 集 数 据 数目 M 很 大 时 的 近似 计算 。 因 此 , 当 数 据 集 数据 数 
目 很 大 时 ,这 3 个 评分 函数 的 计算 结果 趋向 一 致 。 

BDe 评分 在 学 习 时 需要 考虑 参数 的 先 验 分 布 , 而 在 基于 MDL 和 BIC 评分 的 结构 学 习 
中 ,都 是 采用 极 大 似 然 估 计 法 估计 出 该 结构 的 参数 值 。 这 些 值 可 以 通过 对 数据 集 的 学 习 自 
动 获得 ,不 需要 人 工 干预 。 所 以 计算 MDL 和 BIC 评分 要 比 计算 BDe 评分 简单 。 然 而 ,计算 
的 简单 是 以 忽略 先 验 知识 为 代价 的 ,由 于 MDL 和 BIC 评分 没有 用 到 先 验 知识 ,采用 这 两 种 
评分 学 习 结 果 的 正确 性 完全 依赖 于 实例 数据 集合 ,这 就 要 求实 例 数据 必须 很 大 ,并 且 不 能 出 
现 大 的 偏差 。 而 使 用 BDe 评分 学 习 时 ,尽管 其 结构 的 正确 性 也 依赖 于 实例 数据 集合 ,但 通 
过 对 参数 的 先 验 值 的 估计 ,其 依赖 性 比 MDL 与 BIC 评分 要 低 , 有 时 甚至 可 以 纠正 实例 数据 
中 的 偏差 。 

从 学 习 结 构 复 杂 性 的 角度 来 看 , BDe 评分 中 并 没有 明确 地 包含 结构 复杂 性 指标 ,在 某 
些 情况 下 ,该 评分 会 倾向 于 选择 较为 复杂 的 网 络 结构 ; 而 在 MDL 和 BIC 评分 中 ,明确 地 将 
结构 复杂 性 作为 一 个 指标 ,因此 ,这 两 个 评分 倾向 于 选择 较 简 单 的 网 络 结构 ,在 实际 学 习 中 ， 
采用 这 两 个 评分 计算 的 结果 更 简单 BAD RES. 


2. 搜索 算法 


由 于 贝 叶 斯 网 络 的 结构 学 习 问 题 是 一 个 NP-Hard 问题 ,所 以 在 实际 计算 中 ,并 不 是 对 
所 有 的 结构 分 别 计算 其 评分 值 ,再 进行 比较 取 最 优 ,而 是 采用 搜索 算法 (Structure Search)， 
按照 某 种 评分 在 可 能 的 拓扑 结构 空间 中 进行 搜索 来 获取 结构 。 
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最 基本 的 搜索 算法 是 启发 式 局 部 搜索 算法 ,主要 有 K2 算法 , Hill-climbing 算法 、 随 机 
重复 疏 山 法 (Random Restart Hill-climbing) .禁忌 搜索 (Tabu Search) WUR K (Simulated 
Annealing) 及 遗传 算法 (Genetic Algorithm) 等 。 搜 索 过 程 主要 包括 3 个 阶段 : 

阶段 1(Drafting) : 计算 每 对 结 点 间 的 互信 息 ,建立 完整 的 无 向 图 。 : 

阶段 2 (Thickening): 如 果 结 点 对 不 是 2 DHA ,把 这 一 点 对 加 入 到 边 集中 。 

阶段 3(Thinning): 检查 边 集中 的 每 个 点 对 , 如果 两 个 结 点 是 d- 分 割 的 , 则 移 走 这 
条 边 。 

典型 算法 分 析 如 下 : 

(1) K2 算法 

K2 算法 用 贪 焚 搜索 处 理 模 型 选择 问题 : 先 定义 一 种 评价 网 络 结构 优 劣 的 评分 函数 ,再 
从 一 个 网 络 开始 ,根据 事先 确定 的 最 大 父 结 点 数目 和 结 点 次 序 ,选择 分 值 最 高 的 结 点 作为 该 
结 点 的 父 结 点 。K2 算法 使 用 BDe 评分 函数 。 

K2 算法 伪 代 码 如 下 : 


Algorithm3.1 K2 algorithm for BN structure learning 
K2¢ 
X=({X, ,X2,-- ,X,) ,// 一 组 变量 
// 一 个 变量 顺序 ( 设 它 与 变量 下 标 一 致 ) 
，// 变 量 父亲 结 点 的 最 大 个 数 
，// 一 组 完整 的 数据 


(haw Xi X2,- X, 组 成 的 无 边 图 
For j=1 ton . 
mjg; 
Vaa + BDe(<X;, 2; >| D) 
While(true) 
i< arg max BDe(<X;, 2; U {X:}> |D) 
1<i<j X; En, 
7 Vew BDe(<X;, x; U {X:}>l|D) 
8 Tf (Vnew >Voaand| z; | <N) 


9 Vaat Vii 

10 mjer U{ Xi}; 

11 在 D 中 加 边 X; 一 X;; 
12 Else 

13 Break ; 

14 End if 

15 End While 

16 End for 


17 hit g BRO 
18 Return (6,6); // 输 出 一 个 贝 叶 斯 网 络 


K2 的 出 发 点 是 一 个 包含 所 有 结 点 ,但 却 没 有 边 的 无 向 图 。 在 搜索 过 程 中 ,K2 按 顺 序 
逐个 考察 op 中 的 变量 ,确定 其 父 结 点 ,然后 添加 相应 的 边 。 对 某 一 变量 X; ,假设 K2: 已 经 找 
到 了 它 的 一 些 父 结 点 mo WRI <N, BI X; 的 父 结 点 个 数 还 未 达到 上 界 N ,那么 就 要 继 
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续 为 它 寻 找 父 结 点 ,具体 做 法 是 首先 考虑 那些 在 o PHE X, 之 前 ,但 却 还 不 是 X; 的 父 结 
点 的 变量 ,从 这 些 变量 中 选 出 X;, 它 使 得 新 家 族 BDe 评分 Vs<BDe(<XimUf{(X) 二 | 
D) 达 到 最 大 ; 然后 将 Vs。 与 昌 家 族 评分 比较 : 如 果 View > Vor» MWE X: 添加 为 X; 的 父 结 
点 ; 否则 停止 为 Xi 寻找 父 结 点 。 

(2) Hill-climbing 算法 

此 法 的 目标 是 要 找 出 评分 最 高 的 模型 , 它 从 一 个 初始 模型 出 发 开始 搜索 ,初始 模型 一 般 
设 为 无 边 模型 ,在 搜索 的 每 一 步 , 它 首先 用 搜索 算 子 对 当前 模型 进行 局 部 修改 ,得 到 一 系列 
候选 模型 ; 然后 计算 每 个 候选 模型 的 评分 ,并 将 最 优 候选 模型 与 当前 模型 进行 比较 ; AR 
优 候选 模型 的 评分 大 , 则 以 它 为 下 一 个 模型 继续 搜索 ; 否则 ,就 停止 搜索 ,并 返回 当前 模型 。 

搜索 算 子 有 3 个 : 加 边 、 减 边 和 转 边 。 加 边 和 减 边 算 子 的 使 用 有 个 前 提 , 就 是 不 能 在 网 
络 中 形成 有 向 圈 。 

此 法 可 以 使 用 任何 评分 函数 。 不 同 的 评分 函数 有 不 同 的 要 求 : BDe 评分 要 求 关 于 先 验 
参数 分 布 的 超 参 数 ; HVL(Holdout Validation Likelihood， 验 证 数据 似 然 度 ) 评 分 要 求 及 
CVL(Cross Validation Likelihood， 交 叉 验 证 ) 评 分 要 求 则 是 把 数据 分 成 训练 数据 和 验证 数 
据 。 因 此 ,需要 处 理 的 算法 细节 也 有 所 不 同 。 

Hill-climbing 算法 的 伪 代 码 如 下 : 


Algorithm3.2 Hill Climbing algorithm for BN structure learning 
LearnBN_HC( 

X, // 一 组 变量 

0, // 一 组 关于 X 的 完整 数据 

f, // 一 个 罚 项 似 然 度 评分 函数 

多 ， // 一 个 初始 贝 叶 斯 网 络 结构 


) 

1 55g;0<5 的 参数 的 最 大 似 然 估 计 

2 oldScore< f(%,0|9); 

3 While(true) 

4 ¢* <null;@*° <-null; newScore<-— o 

5 For( 每 个 对 5 做 一 次 加 边 a id Be eS TT 4 BA g) 
6 9'<-V 的 参数 的 最 大 似 然 估 计 ; 

7 tempScore< f(t’ ,0 |9); 

8 If(tempScore>newScore) 

9 ç < ;0" <-0' ;newScore<tempScore; 
10 End If 

11 End For 

12 If(mewScore>oldScore) 

13 gg” ;6<-@" ;oldScore<-newScore; 

14 Else 

15 Return(¢, 0); 

16 End If 


17 End While 


3.2.2 基于 条 件 独 立 性 测试 的 结构 学 习 算 法 
基于 条 件 独立 性 测试 (Conditional Independence Test) 的 结构 学 习 算 法 的 核心 思想 是 : 
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首先 对 训练 数据 集 进行 统计 测试 ,尤其 是 条 件 独立 性 测试 ,确定 出 不 同 结 点 集 之 间 的 一 致 条 
件 独立 性 ; 然后 ,利用 结 点 集 之 间 的 条 件 独立 性 ,构造 一 个 有 向 无 环 图 ,以 尽 可 能 多 地 涵盖 
这 些 条 件 独 立 性 。 基 于 统计 测试 的 方法 比较 容易 理解 ,这 与 贝 叶 斯 网 络 的 定义 紧密 相连 , 它 
将 独立 的 概念 从 结构 构造 中 分 离 出 来 。 

1993 年 Spirtes 等 提出 的 SGS 算法 是 典型 的 以 条 件 独立 性 测试 确定 拓扑 结构 的 算法 。 
该 算法 从 无 向 完全 图 出 发 ,如 果 相 邻 结 点 间 存 在 无 向 分 割 集 , 则 删除 它们 之 间 的 边 ; 然后 通 
过 统计 测试 来 确定 剩余 边 的 方向 。 

2002 年 ,Cheng 将 信息 论 与 统计 测试 相 结合 ,使 用 相互 信息 代替 了 条 件 独 立 测试 ,经 过 
Drafting, Thickening, Thinning 3 个 步骤 ,通过 计算 互信 息 量 (Mutual Information) 来 确定 
结 点 间 的 条 件 独 立 性 ,从 而 构造 多 连接 有 向 模型 。 


3.3 参数 学 习 


在 参数 学 习 (Parameter Learning) 方 面 , 参 数 估计 问题 最 常用 的 和 有 效 的 方法 就 是 : th 
大 似 然 参 数 估计 和 贝 叶 斯 参数 估计 。 极 大 似 然 把 待 估计 的 参数 看 作 是 确定 性 的 量 ,只 是 其 
取 值 未 知 。 最 佳 估 计 就 是 使 得 产生 以 观测 到 的 样本 的 概率 最 大 的 那个 值 。 贝 叶 斯 估计 则 把 
待 估计 的 参数 看 成 是 符合 某 种 先 验 概率 分 布 的 随机 变量 。 对 样本 进行 观测 的 过 程 , 就 是 把 
先 验 概率 密度 转化 为 后 验 概率 密度 ,这 样 就 利用 样本 的 信息 修正 了 对 参数 的 初始 估计 值 。 
在 贝 叶 斯 估计 中 ,一 个 典型 的 效果 就 是 ,每 得 到 新 的 观测 样本 ,都 使 得 后 验 概率 密度 函数 变 
得 更 加 尖锐 ,使 其 在 待 估计 参数 的 真实 值 附近 形成 最 大 的 尖峰 。 


3.3.1 极 大 似 然 参数 估计 
1. 概念 


极 大 似 然 估 计 (Maximum Likelihood Estimation, MLE) 方 法 是 求 估 计 的 一 种 方法 。 它 
于 1821 年 首先 由 德国 数学 家 C.F. Gauss 提出 ,但 是 这 个 方法 通常 被 归功 于 英国 的 统计 学 
家 R. A. Fisher, 他 在 1922 年 的 论文 On the mathematical foundations of theoretical 
statistics 中 再 次 提出 了 这 个 思想 ,并且 首先 探讨 了 这 种 方法 的 一 些 性 质 。 极 大 似 然 估计 这 
一 名 称 也 是 Fisher 命名 的 。 这 是 一 种 目前 得 到 广泛 应 用 的 方法 。 它 是 建立 在 极 大 似 然 原 
理 基 础 上 的 一 个 统计 方法 。 


2. 极 大 似 然 估计 基本 原理 


在 一 次 观察 中 ,一 个 事件 出 现 了 ,可 以 认为 此 事件 发 生 的 概率 大 。 例 如 ,一 个 随机 试验 
如 有 若干 个 可 能 的 结果 A,B,C,…。 若 在 一 次 试验 中 ,结果 A 出 现 , 则 一 般 认为 试验 条 件 对 
A 出 现 有 利 , 也 即 A 出 现 的 概率 很 大 。 

下 面 对 连 续 型 和 离散 型 母体 两 种 情形 阐述 极 大 似 然 估计 原理 (The Maximum 
Likelihood Principle ) 。 

Biho 为 取 自 具有 概率 函数 {f(z,0):9€ 8B} 的 母体 & 的 一 个 子 样 。 子 样 &， 
名 ,5 的 联合 概率 函数 在 &; 取 已 知 观测 值 X; (i 二 1,…,n) 时 的 值 f(zxi;0) (x;0)… 
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f(x,;9) 是 9 的 函数 。 用 工 (9) 二 L(9;X!,…,X,) 表 示 , 称 为 这 个 子 样 的 似 然 函 数 。 于 是 有 
L(0) = L(0; Xi Xa) = F021 50) fx 30)" f(x, ;0) (3. 11) 
如 果 母 体 是 离散 型 母体 ,L(0) = LO; X ,…,X,) 给 出 观测 到 (Xi,X,…,X,) 的 概率 。 
因此 ,可 以 把 工 (0) 王 工 (0; Xi,…,X,) 看 成 为 了 观测 到 (Xi ,Xs ,…，,X,) 时 出 现 什么 样 9 的 可 


能 性 的 一 个 测度 。 所 以 只 要 寻找 这 样 的 观测 值 (Xi ,Xi ,…,X,) 的 函数 0: 二 0. (Xi，,*…,X,)， 


以 6 代替 9 使 
L(O}X; 9+ yXq) 一 supl (05X1 11 Xp) (3. 12) 


成 立 。 满足 式 (3. 126 Â=: (Xi,,…,X,) 就 是 最 可 能 产生 Xi 9X29 yo Xa 的 参数 0 的 值 。 


则 称 OCX, ,…,X, ) 为 参数 9 的 极 大 似 然 估计 值 , 其 相应 的 统计 量 ACE ,… 6, ) 称 为 参数 0 的 
极 大 似 然 估计 量 。 
如 果 & 是 连续 型 ,f(z ;0) ,0E 和 表示 密度 函数 ,8 是 参数 空间 。 于 是 子 样 &,&,…,& BA 


(XiX: ，……X,) 的 邻 域内 的 概率 为 II f(zi;0) Ax; ,同样 是 0 的 函数 。 既然 (Xi X: ott) X ) 在 
一 次 抽样 中 出 现 , 当 然 可 以 认为 子 样 (& ,&,…,é&,) 落 在 (Xi ,XX;,…,X,) 邻 域内 的 概率 达到 


最 大 。 所 以 只 要 找 出 使 T[ f(x sO) Ar 达到 最 大 的 9 WEIG, X). HF Ar 是 不 
依赖 于 0 的 增 量 ,也 只 需求 出 使 得 
LX, 区 ) = I fC Az; (3.13) 


达到 最 大 值 , 便 可 得 到 极 大 似 然 估 计 。 综 上 所 述 知道 ,连续 母体 的 参数 的 极 大 似 然 估 计 同 样 
可 以 用 式 (3. 11) 和 式 (3. 12) 两 式 表 示 。 
由 于 lnz fi x 的 单调 增 函 数 , 使 
InL(0; X, s1 X,) 一 suplnLCO Xi, , X,) (3.14) 


成 立 的 6 也 使 式 (3. 12) 成 立 , 所 以 有 时 只 要 从 式 (3. 14) 中 求 6 即 可 。 

简单 地 说 , 极 大 似 然 估 计 的 定义 就 是 : 

满足 条 件 LÔ) =max{L (6) } i ĝ=ĝ Cz, ;Tz，"… ,Xn) 叫做 参数 9 的 极 大 似 然 估 计 值 。 其 
中 LL(，。) 表 示 样 本 的 似 然 函 数 。 

求 极 大 似 然 函 数 估计 值 的 一 般 步 又 如 下 : 

d) 写 出 似 然 函 数 。 

(2) 对 似 然 函 数 取 对 数 , 并 整理 。 

(3) 求 导数 。 

(4) 解 似 然 方 程 。 

极 大 似 然 估计 只 是 一 种 概率 论 在 统计 学 中 的 应 用 , 它 是 参数 估计 的 方法 之 一 。 说 的 是 
已 知 某 个 随机 样本 满足 某 种 概率 分 布 , 但 是 其 中 具体 的 参数 不 清楚 ,参数 估计 就 是 通过 若干 
次 试验 ,观察 其 结果 ,利用 结果 推出 参数 的 大 概 值 。 极 大 似 然 估计 是 建立 在 这 样 的 思想 上 : 
已 知 某 个 参数 能 使 这 个 样本 出 现 的 概率 最 大 ,我 们 当然 不 会 再 去 选择 其 他 小 概率 的 样本 ,所 
以 干脆 就 把 这 个 参数 作为 估计 的 真实 值 。 
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当然 极 大 似 然 估 计 只 是 一 种 粗略 的 数学 期 望 ,要 知道 它 的 误差 大 小 还 要 做 区 间 估 计 。 
3. 基于 极 大 似 然 参数 估计 的 贝 叶 斯 网 络 参数 学 习 

具体 到 贝 叶 斯 网 络 , 似 然 函 数 可 以 表示 成 

L(0 :D)= TI PC Cm], Xoo] oe «Xe 10 ) = T T PLn] | Pax, ,0.) 


= = TI T PC | Pax ,0.) = IITre :D) (3. 15) 


i=l] m=1 i=l j= 


ER LO :D) 的 极 大 值 , 即 是 要 求 每 个 因子 L(0; :D) 的 极 大 值 ; 同时 根据 贝 叶 斯 网 络 
的 性 质 , 有 式 (3. 16) 成 立 , 即 


LO, D) = POD 10) = TO" ve (3. 16) 


式 中 ,r; AX: 的 取 值 数目 ;NN 为 第 i 个 结 点 ， 取 值 为 第 大 个 值 时 ， 在 父 结 点 取 值 组 合 取 第 j 
个 值 时 数据 的 数量 ,该 值 被 称 为 充分 统计 因子 , {Ni liSl, sn j=l, sgk =l, sr) 
充分 统计 量 (Sufficient Statistics) 。 

按照 最 大 似 然 估 计 值 的 求法 , 令 


a(PCD | )) _ 5 
3 6; 
即 
a( IEA Nik 
k=1 工 
a u = 0 (3.17) 
通过 计算 ,最终 可 以 得 到 参数 的 计算 公式 为 
Bi = =a 
其 中 
We = Nu (3. 18) 
k=1 ` 


3.3.2 贝 叶 斯 套数 估计 
1. 概念 


贝 叶 斯 参数 估计 (Bayesian Parameter Estimation ) 除 了 利用 总 体 信 息 、 样 本 信息 之 外 ， 
还 利用 试验 之 前 已 经 获得 的 信息 一 一 先 验 信息 ,对 总 体 参数 进行 估计 。 根 据 样本 分 布 和 未 
知 参数 的 先 验 分 布 , 用 概率 论 中 求 条 件 概率 分 布 的 方法 , 求 出 的 在 样本 已 知情 况 下 ,未 知 参 
数 的 条 件 分 布 。 因 为 这 个 分 布 是 在 抽样 以 后 才 得 到 的 , 故 称 为 后 验 分 布 。 贝 叶 斯 推断 方法 
的 关键 是 任何 推断 都 必须 上 且 只 需 根 据 后 验 分 布 ,而 不 能 再 涉及 样本 分 布 。 下 面 先 介绍 一 下 
先 验 分 布 \ 后 验 分 布 和 贝 叶 斯 公式 。 

1) 先 验 分 布 

设 9 是 参数 空间 ,90€E @ 是 未 知 参数 , 称 先 验 信息 的 数量 化 为 参数 空间 @ 上 确定 先 验 分 
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布 , 记 为 x(90)。 

可 用 于 确定 先 验 分 布 的 方法 有 以 下 几 种 : 

(1) 主观 概率 。 按 贝 叶 斯 学 派 的 说 法 ,这 是 一 种 通过 “自我 反省 ”去 确定 先 验 分 布 的 方 
法 。 就 是 说 ,对 参数 9 取 某 某 值 的 可 能 性 多 大 ,通过 思考 ,觉得 该 如 何 , 而 确定 一 个 值 。 

主观 先 验 分 布 反映 了 个 人 以 往 对 9 的 了 解 ， ALAR Re ae AT 
是 通过 他 人 获取 的 ,也 可 能 是 他 人 对 0 的 了 解 。 

对 过 去 的 经 验 和 知识 ,必须 经 过 组 织 和 整理 。 这 样 提出 的 先 验 分 布 ,在 主观 上 是 正确 
的 ,但 不 能 保证 符合 客观 标准 。 

例如 , 若 对 事件 A 与 A， 根据 经 验 可 知 A 发 生 的 可 能 性 是 发 生 的 可 能 性 的 & 倍 , 即 

P(A) = kP (A) (3.19) 

则 有 事件 A 的 主观 概率 


ae 
P(A) = Ei (3. 20) 


(2) 无 信息 先 验 分 布 。 即 参数 9 可 以 取 某 个 区 域内 的 任意 一 值 。 

若 昌 是 区 间 [a,5j, 则 可 认为 96 服从 [a,5] 上 的 均匀 分 布 。 

这 一 原则 称 为 贝 叶 斯 假定 。 以 产品 的 废品 率 p 为 例 , 当 对 p 一 无 所 知 时 ,只 好 先 验 地 
认为 , 以 同等 机 会 取 (0,1) 内 各 种 值 ,因而 以 (0,1) 内 均匀 分 布 U(0,1) 作 为 p 的 先 验 分 布 。 
需要 注意 的 是 ,这 一 原则 会 出 现 矛 盾 。 如 果 对 p 无 知 ,对 pr 也 同样 无 知 。 按 同等 无 知 原 
则 ,可 以 取 UU(0,1) 作 为 p? 的 分 布 ,但 这 时 p 的 分 布 就 不 是 U(0,1) 了 。 

(3) FERC HATH. H. Raiffa、R. Schlaifer 提出 先 验 分 布 应 取 共 斩 分 布 才 合适 ， 设 样本 
X 的 分 布 族 为 {F(Cz10):0EG@), 若 先 验 分 布 x(9) 与 后 验 分 布 r(0|z) 属 于 同一 分 布 类 型 , 则 
先 验 分 布 OPA rOle) AAAA , Dirichlet HAHAH AMA Ho. 

(4) Jeffreys JAM. Jeffreys 提出 的 选取 先 验 分 布 的 原则 是 一 种 不 变 原理 , 较 好 地 解决 了 贝 
叶 斯 假设 中 的 一 个 矛盾 , 即 若 对 参数 9 选用 均匀 分 布 , 则 其 函数 g(0) 往 往 不 是 均匀 分 布 。 

Jeffreys 原则 : 设 按照 原则 决定 9 的 先 验 分 布 为 h(0) ,车 以 g(0) 作 为 参数 , 按 同 一 原则 
决定 的 my 二 g(9) 的 先 验 分 布 是 A, Cp) , 则 应 用 关系 式 

hO) = hsLg(0)] | g (0) | (3. 21) 

车 选取 的 h(9) 符 合式 (3. 21) , 则 用 0 或 9 的 函数 g (90) 的 先 验 分 布 总 是 一 致 的 。 

这 个 方法 的 困难 之 处 在 于 如 何 找到 满足 式 (3. 21) 的 ACO), Jeffreys 利用 Fisher 信息 量 
的 不 变性 ,找到 了 符合 要 求 的 (9)。 

O RAR. MER RIM —-TSRABR, BME RAASEN ER. RAE 
TERK MARAK ,在 “无 信息 ”的 情况 下 BRAK NOH ABA. 

RAKAR: 无 信息 先 验 分 布 应 取 参 数 9 AEE IE E Re KY OP o 

2) 后 验 分 布 与 贝 叶 斯 公式 l 

E X=2 的 条 件 下 ,9 的 条 件 分 布 称 为 的 后 验 分 布 , 后 验 分 布 由 后 验 概 率 密度 函数 来 
描述 。 

BBR 9 的 先 验 信 息 已 知 的 条 件 下 ,总体 X 的 条 件 分 布 密度 函数 是 f(zx10),X 的 样本 
(Xi，,Xs，…，X。) 的 条 件 分 布 密度 函数 为 


faist san | 0) = [] flax | (3. 22) 
i=1 
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设 0 的 先 验 分 布 是 x(9), 则 (Xi ,X,,…,X, ,0) 的 联合 分 布 密 度 函 数 为 


gx 9Z29°°*" 9 Tn ,0) = xO) f(a 9X2 9°** Zn | 0) (3. 23) 
BBA CX, ‚X: gre Xp ,0) 关 于 (XI X: aed ,X,) 的 边缘 分 布 密度 函数 为 
g(x 9Xo9°t* T a | (A ygT2 9""" 9 Tn ,0)d0 (3. 24) 
e 
当 样 本 观测 值 已 知 后 , (Xi ,XX; ,…,X,,0) 的 联合 分 布 密度 函数 可 以 分 解 为 
ga) 9Zo9°** E 30) — gz) sT" 9X, AO | WY sD gtts PE A) (3. 25) 
称 
CO | tts pg, ) = LELT Tn) _ OSCE aes lO (3.26) 
mem | 8) fla TT 
为 分 布 密度 函数 形式 的 贝 叶 斯 公式 。 


(CO| zi 32 9 ,Zn) 是 样本 (Xi 及 2， ,X,) 的 取 值 给 定时 关于 0 的 条 件 分 布 密 度 函 数 ， 
是 获得 样本 观测 值 后 对 先 验 信息 的 补充 或 改进 。 称 x(9|zi ,zz ，… ,x,) 为 9 的 后 验 分布 。 


2. 贝 叶 斯 参数 估计 原理 


贝 叶 斯 学 派 认为 : 后 验 分 布 族 是 统计 推断 的 出 发 点 。 这 里 样本 观测 值 是 确定 的 ,而 6 
是 随机 的 。 而 经 典 统 计 中 ,其 出 发 点 是 样本 分 布 族 , 其 中 0 是 未 知 参数 ,而 样本 观测 值 = 只 
是 无 限 次 可 能 试验 结果 的 一 个 具体 实现 。 总 体 来 说 ,样本 X 是 随机 的 。 

无 偏 性 与 样本 分 布 族 有 关 , 因 而 “无 偏 性 ”不 符合 贝 叶 斯 统计 推断 原则 。 

总 之 , 贝 叶 斯 统计 推断 的 任务 是 根据 已 知 的 样本 观测 值 x 对 未 知 的 随机 变量 根据 后 验 
分 布 作出 推断 ,这 里 z 是 具体 的 值 ,没有 必要 将 其 放 在 “无 限 多 可 能 值 之 一 ”中 考察 。 

参数 9 的 贝 叶 斯 估计 有 以 下 几 种 方法 : 


(1) 用 后 验 期 望 ( 后 验 均值 )6 估计 09 


(X, Xoo Xn) A BE A, i 9 的 后 验 密度 为 x(0|X),X=(2, 9Z2 9°85 Ln) 90 的 后 验 
期 望 为 . 


6 = E(0 | X) = fo «ntl | X)do (3. 27) 
FA O=E(0| X) ik 6 是 一 个 很 自然 的 想法 。 
(2) 最 小 均 方 误差 估计 
OO 的 估计 量 ,已 (6 一 0): 称 为 均 方 误差 ,最 小 均 方 误差 就 是 求 6, 使 


0 = arg minE (6 一 0)? (3. 28) 
在 贝 叶 斯 统计 中 ,6 与 9 都 是 随机 变量 ,E (6 一 9)? 的 计算 与 传统 的 不 同 , 有 
E(6—6)? =| G-o» -rto | Xdaxdg (3, 29) 


(3) 最 大 后 验 估计 

用 一 组 样本 集 X= {xi ,zz，…,zo} 估 计 未 知 参数 0, 未 知 参数 9 视 为 随机 变量 , 先 验 分 布 
为 x(0) ,而 在 已 知 样本 集 半 出现 的 条 件 下 的 后 验 概率 为 x (0|XX), 则 最 大 后 验 概率 估计 
(Maximum a posteriori, MAP) 为 
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bua = arg maxx (0 | X) = arg max t= AL Ox 


= arg maxr (X | Dr) (3. 30) 

对 于 给 定 总 体 中 的 某 一 个 待 估计 参数 ,不 同 的 估计 方法 可 以 得 到 该 参数 不 同 的 估计 量 。 
因此 ,需要 对 估计 量 的 优 劣 作出 评价 。 评 价 估计 量 优 劣 的 标准 主要 有 无 偏 性 有 效 性 、 相 合 
性 ( 亦 称 一 致 性 ) 。 需 特别 说 明 的 是 ,除了 采用 无 偏 \ 有 效 和 相合 估计 作为 评价 准则 外 ,还 可 
以 利用 估计 误差 的 变化 范围 作为 参数 估计 的 测度 ,这 种 测度 叫做 损失 函数 (或 代价 函数 )。 
常用 于 标量 估计 的 贝 叶 斯 估计 器 的 损失 函数 有 绝对 型 二 次 型 和 均匀 型 。 

一 般 贝 叶 斯 估计 , 设 e 二 9 一 6 表示 估计 误差 , 令 CCe) 为 损失 函数 ,定义 RR 二 EL[C(e)] 为 
贝 叶 斯 风险 函数 。 令 贝 叶 斯 风险 函数 最 小 ,计算 得 到 各 种 贝 叶 斯 估计 。 

绝对 型 损失 函数 为 


Cle) =| 6-8 | (3. 31) 
二 次 型 损失 函数 为 
Cle) = è (3. 32) 
均匀 型 损失 函数 为 
0 le l<é 
Cle) = | (3. 33) 
1 le |>6 
其 风险 函数 的 解 是 MAP 估计 。 


3. 基于 最 大 后 验 分 布 估计 的 贝 叶 斯 网 络 参 数学 习 


由 于 最 大 似 然 估计 法 没有 利用 先 验 知识 , 故 收 敛 速度 较 慢 ,而 基于 贝 叶 斯 统计 的 方法 则 
恰恰 利用 了 这 部 分 知识 。 

在 以 前 的 分 析 过 程 中 ,对 完整 数据 集 的 参数 ,有 各 个 参数 向 量 b; 相互 独立 的 假设 ; 同时 
可 以 证 明 , 参 数 b 的 后 验 分 布 也 具有 相同 的 独立 性 ,所 以 进行 参数 估计 时 ,可 以 分 别 计算 基 
于 各 个 参数 的 后 验 分 布 P(b |D) ,并 在 此 基础 上 进行 参数 估计 。 

在 此 ,把 先 验 分 布 选 为 Dirichlet 分 布 , 即 


/ 和 
Dir, | aji sajz . FSS yagr ) = eee ow aj — 1 (3. 34) 
Train)" ü 


公式 中 的 变量 可 以 参考 BDe 评分 函数 部 分 ， we, 的 后 验 分 布 为 : 
PO; | D)= Dir(0; | aıt ay saya Qi2 staj F air, ) 





= Taytay) Te (3. 35) 
[Feat on)" i 

采用 求 数学 期 望 的 方法 实现 对 参数 的 估计 ， 即 

ant age 


EF Caj t Qik ) 
k=1 


0 = Epc, |p) (Oj) = (3. 36) 
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例如 ,对 射击 队员 的 命中 率 进行 估计 ,第 一 个 队员 射击 数 为 10 次 ,命中 6 次 ; 第 二 个 队 
员 射击 100 次 ,命中 60 次 。 按 照 最 大 似 然 方法 估计 两 次 的 命中 率 均 为 如 一 100 一 60 吧 ,两 
个 射击 队员 的 水 平 相 当 。 假 设 先 验 信息 为 无 信息 先 验 分 布 , 即 对 两 名 射击 队员 的 水 平 预先 


不 知 ,根据 贝 叶 斯 假设 ,使 用 均匀 分 布 作为 其 分 布 , 即 参 数 在 它 的 变化 范围 内 , 取 到 各 个 值 的 


机 会 是 相同 的 。 根据 上 述 的 讨论 , 取 a 一 1, 第 一 个 射击 队员 的 命中 率 为 一 0. 583, 第 





二 个 射击 队员 的 命中 率 为 二 60 一 0. 598。 显 然 , 人 们 对 第 二 个 射击 队员 的 命中 率 更 加 充 


满 信心 ,使 用 Dirichlet 为 先 验 知识 进行 评估 也 更 加 合理 。 
另外 ,还 可 以 计算 D 中 第 m 十 1 个 实例 出 现 的 概率 , 即 


P(X™ | D,S)= If -f Oix P O; | D) dOs 
i=] 9551 ijr; 
= IL, -f Oix Dir (0, | agit Qij1 sajat Qij2 st asin, F Qir, 1405 
i=] Y 9% ijr; 


ajam (3.37) 


i=l a jt aij 
Jh aj = = vibe tg = > anh REREKAI. ERER BAT DRE Oh Hh RE 
估计 ; 在 缺乏 专家 知识 时 ,也 可 以 采用 al <1 来 估计 。 
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4.1 概述 


由 于 各 种 原因 ， 现 实数 据 库 中 经 常会 存在 不 同 程度 的 数据 丢失 现象 ,具有 缺失 数据 的 
有 向 概率 图 模型 学 习 一 直 是 近年 来 的 研究 热点 和 难点 。 数 据 的 缺失 主要 会 产生 两 方面 的 问 
题 : 一 方面 ,评分 函数 不 再 具有 可 分 解 形式 ,不 能 进行 局 部 搜索 ; 另 一 方面 ,一 些 充分 统计 
因子 不 存在 ,无 法 直接 进行 结构 评分 。 围 绕 这 两 个 问题 ,相继 出 现 了 一 些 解决 方法 ,目前 ,对 
于 具有 缺失 数据 的 贝 叶 斯 网 络 的 参数 学 习 , 常 用 的 方法 有 Gibbs 抽样 方法 和 EM 
(Expectation-Maximization) 方 法 。 对 于 具有 缺失 数据 的 贝 叶 斯 网 络 的 结构 学 习 , 主 要 有 结 
构 EM(Structural EM，SEMI) 方 法 和 评分 结构 方法 。 

本 章 基于 贝 叶 斯 网 络 , 对 参数 学 习 的 EM 算法 与 Gibbs 抽样 方法 .结构 学 习 的 SEM 算 
法 和 评分 一 搜索 结构 方法 作 简要 介绍 。 


4.2 参数 估计 


数据 集 不 完整 ,是 指数 据 在 某 些 结 点 处 有 缺失 现象 。 此 时 ,已 不 能 再 利用 参数 之 间 的 独 
立 性 进行 计算 , 即 不 能 将 似 然 函 数 或 后 验 概 率 分 解 成 关于 每 个 参数 的 因子 ,前 边 介 绍 的 参数 
学 习 算 法 将 不 再 适用 。 对 于 不 完整 数据 集 , 常 采 用 的 方法 有 EM 算法 、Gibbs 抽样 方法 等 。 


4.2.1 EM 算法 


在 人 工 智能 、 数 理 统计 、 机 器 学 习 和 模式 识别 中 有 许多 的 应 用 都 要 进行 模型 的 参数 估 
计 , 也 就 是 要 进行 极 大 似 然 估 计 (MLE) 或 极 大 后 验 似 然 估 计 (MAP)。 当 模型 中 的 变量 均 
为 可 以 直接 观察 的 变量 时 , 极 大 似 然 或 极 大 后 验 似 然 是 显然 的 。 但 是 当 某 些 变量 隐藏 时 , 进 
行 极 大 似 然 估 计 就 比较 复杂 。 也 就 是 说 ,在 完整 数据 情况 下 , 贝 叶 斯 网 络 的 参数 最 大 似 然 估 
计 可 以 用 式 (3. 18) 来 计算 。 但 是 当 数 据 有 缺 值 时 ,PCD,|10) 不 能 按 式 (3. 16) 分 解 ,因而 没有 
计算 最 大 似 然 估 计 的 公式 。 

实际 上 ,在 存在 潜在 变量 或 数据 不 完全 的 情况 下 ,人 们 提出 了 很 多 对 模型 参数 进行 估计 
的 方法 ,一 种 非常 流行 的 极 大 似 然 估 计 方 法 是 EM 算法 。 它 不 是 直接 对 复杂 的 后 验 分 布 进 
行 极 大 化 或 模拟 ,而 是 在 观察 数据 的 基础 上 添加 一 些 “ 潜 在 数据 ”, 从 而 简化 计算 并 完成 一 系 
列 简单 的 极 大 化 或 模拟 。 它 之 所 以 被 称 为 EM 算法 是 因为 算法 的 每 一 次 迭代 由 一 个 期 望 
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步 (E-step) 和 极 大 步 (M-step) 构 成 。EM 算法 的 特点 是 简单 和 稳定 ,特别 是 每 一 次 迭代 能 
保证 观察 数据 对 数 的 后 验 似 然 是 单调 不 减 的 。 

EM 算法 是 一 种 一 般 的 从 “不 完全 数据 ?中 求解 模型 参数 的 极 大 似 然 估 计 的 方法 。 “不 
完全 数据 ”一 般 分 为 两 种 情况 : 一 种 是 由 于 观察 过 程 本 身 的 限制 或 者 错误 ,造成 观察 数据 成 
为 错漏 的 不 完全 数据 ; 另 一 种 是 参数 的 似 然 函数 直接 优化 十 分 困难 ,而 引入 额外 的 参数 ( 隐 
含 的 或 丢失 的 ) 后 就 比较 容易 优化 ,是 定义 原始 观察 数据 加 上 额外 数据 组 成 “完全 数据 ”， 原 
始 观察 数据 自然 就 成 为 “不 完全 数据 ”。 

EM 算法 为 了 求 得 贝 叶 斯 网 络 B= 二 (G,0) 的 参数 9 的 MLE 的 近似 值 , 其 基本 方法 是 : 
从 9 的 某 个 初始 值 9” 开始 迭代 ,初始 值 8 往往 是 随机 产生 的 。 设 已 经 进行 了 上 次 迭代 ,得 
到 估计 0 ,第 :十 1 次 迭代 由 以 下 两 个 步骤 组 成 : 

(1) E-step。 利 用 网 络 结构 和 当前 参数 90: 对 缺失 数据 计算 它 的 期 望 值 ,使 数据 修补 
完整 。 

(2) M-step。 基 于 修补 后 的 完整 数据 ,计算 出 新 的 最 大 可 能 的 参数 分 布 0+! ,用 Oe 
换 原 有 的 0'。 

重复 上 述 过 程 ,直到 所 估计 的 参数 达到 局 部 最 优 或 达到 指定 的 迭代 次 数 。 

下 面 介 绍 这 两 个 步骤 的 具体 实现 过 程 。E-step 步骤 是 进行 数据 的 修补 ,在 这 个 过 程 中 , 考 
虑 某 一 缺 值 样本 Din] Xn. 为 DLm] 中 所 有 缺 值 变量 的 集合 。 对 X,, 的 一 个 取 值 z Xn = En 
加 入 DLm] 就 得 到 一 完整 样本 ,由 于 X, 有 多 个 可 能 取 值 ,所 以 DL[m] 有 多 种 修补 方式 ,EM 算法 考 
虑 所 有 可 能 的 修补 结果 ,根据 当前 估计 9' 与 网 络 结构 ,计算 P(X 二 zx, | DLmj],0') ,所 得 的 结果 为 
样本 二 DLmj],X 二 zm 二 的 权重 , 记 为 Q, (二 X= 二 zx 这), 这 样 带 有 权重 的 样本 又 称 为 碎 权 
样本 (Fractional Sample)。 在 数据 修补 过 程 中 ,每 个 缺 值 样本 都 被 一 系列 完整 的 碎 权 样 本 
所 代替 。 所 以 ,在 修补 后 的 数据 中 所 有 样本 都 是 完整 的 ,而 且 每 个 样本 都 有 一 个 权重 ,原本 
完整 的 样本 权重 为 1。 修 补 完 样 本 后 ,M-step 步骤 基于 修补 的 完整 数据 ,计算 出 新 的 最 大 可 
能 的 参数 分 布 9”: 。 与 式 (3. 18) 类 似 ,EM 算法 用 式 (4. 1) 计 算 基 于 补 后 数据 的 最 大 似 然 估 
+t ot), BD 


Min # >My >0 
Of = 2y Mu (4.1) 
1, #5 
式 中 ,Mi 为 补 后 数据 中 所 有 满足 X: =k 和 其 父 结 点 集合 Pa(X;) =j 的 样本 的 权重 之 和 。 
D © 例如 ,有 如 图 4. 1 所 示 的 贝 叶 斯 网 络 结构 ,其 所 有 结 点 变量 为 布尔 
变量 ,现在 有 不 完整 数据 D[1]=(Ca! ，;?,?,d") 和 D[2]=(?,b! sta"), 
(c) 假如 ,当前 的 29 是 
0 = 0.4 Os! = 0.8 
(>) Ba | = 0. 2 VAIP. E 0. 7 
图 4.1 一 个 贝 叶 斯 Gia = 0.7 brian = 0.8 


网 络 结构 Oo 一 0.1 i, = 0.3 
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则 首先 E-step 对 数据 进行 修补 。 对 于 DL1] 二 (a',?,?,q"), 其 碎 权 样本 的 权重 计算 为 
PC! Ta sa) ,d°) 


Q (< b,c! >)= P, | a, d’) = Pla ,d’) 


— PPP | a',b') PA | c') 
P(a',d°) 
=0.4°0.8+0.3+0.3/0.24 = 0.12 
Po! nC ya} ,d") 
P(al ,d") 
_ PPHP | a bP! | c) 
P(a' d°) 
=0.4.0.8. 0.7 + 0.8/0. 24 = 0. 7467 
P(e sc a) ,d°) 
P(a! sd’) 
= Ft PP | a',6°) Pd | c') 
P(a',d°) 
= 0.4+0.2+0.8+ 0.3/0. 24 = 0.08 
_ P,a’, d) 
P(a' £) 
— PPP |a, bP | c°) 
P(a' id) 
一 0.4。0.2。0.2。0.8/0.24 一 0.0533 
对 于 DL2]=(?,6',?7.d') ,其 碎 权 样 本 的 权重 计算 为 
P(al sc ,村 ma > 
P yd") 

— PPDP | a',b')P(d' | c) 
P(b',d') 
=0.4+0.8+0.3+ 0.7/0. 232 = 0. 2897 
= P(a! Mog „b! vd!) 
P(b',d') 

— PPOP | a,b) Pd! | c) 
PŒ ,d') 
= 0.4+°0.8+0.7+ 0.2/0. 232 = 0.1931 


Q (< b! 16° >= Pb ,er | a d’) = 


Q (< b,c} >= PB ,c! | a! 本 == 


Q (< E >)= P(b ,co | a} ad) 


Q: (< a' sc >= P(a' sc | b! xd) = 


Q:(< a!,c? >)= Pla, | b ,d!) 


0 al = 0: al 1 i — P(a’,c',b',d') 
QK a, >)= P(a’,c' | b',d') 一 Pa 


— PaP PC | a°,b') Pd | c) 
P(b' ,d') 
= 0.6+0.8+0.1-+0.7/0.232 = 0. 1448 
Q2(< a°,c° >)= Pa, | b',d') PO d) 
— Pl(a’)P(b')P(e | a°,b')P(d' | c) 
P ,d') 
= 0.6+0.8+0.9 + 0.2/0. 232 = 0. 3724 
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计算 出 以 上 碎 权 样本 权重 以 后 ,原先 仅 有 两 个 不 完整 样本 的 数据 集 被 修补 为 8 个 完整 
样本 的 数据 集 , 如 表 4. 1 所 示 。 


表 4.1 E-step 修补 后 的 完整 数据 集 





Xi X: X: X, Q 
D’[1] a b’ č! d’ 0.12 
D'[2] a ob 3 d 0. 7467 
D'[3] a} b g d° 0. 08 
D'[4] a} b co g 0. 0533 
D'[5] a} b' g d' 0. 2897 
D'[6] a} b' co d’ 0. 1931 
D'[7] a? b' ic d! 0.1448 
D'[8] a? b! g d! 0. 3724 


修补 完 数据 后 ，M-step 要 计算 出 新 的 最 大 可 能 的 参数 分 布 ,用 0 替换 原 有 的 0。 假 
设 要 计算 新 的 e RERA. DA 


= Q: (一 a,c >)+Q(< alg >) 
QS<b ,0 >) +Q6< OP >) +Q(< a's? >)+Q<a' ,ee >) 


— 0. 1931 + 0. 3724 
0. 7467 +0. 08 + 0. 1931 + 0. 3724 


= 0. 4062 





可 以 依次 类 推 , 计 算出 其 他 参数 新 的 估计 值 , 并 且 用 新 的 参数 估计 值 代替 旧 的 参数 ,不 
断 重 复 E-step 和 M-step， 直 到 收敛 。 
下 面 给 出 了 贝 叶 斯 网 络 参数 的 EM 学 习 算 法 的 伪 代 码 : 


Algorithm4.1 Expectation-maximization algorithm for BN 


// 计 算 E-step 中 的 期 望 充分 统计 量 


Compute-ESS ( 


G, 


6, 


D, 


an > wn ew 


// 贝 叶 斯 网 络 结构 
// 贝 叶 斯 网 络 参 数 
// 不 完整 数据 集 


// 初 始 化 数据 结构 


For each i=1, ...,n 

For each z;,,u; € Val(X;, Pag. ) 

Mi。 -0 

For each m=1, ...,M 

Run inference on (G,0) using evidence D[m] // 使 用 数据 样本 Dim) tE M 4 4 AY ATMS BE 


进行 推理 运算 


7 
8 
9 


For each zi 一 1，.… ,7 


For each z; , u; € Val(X;, Pa, ) 
M,z,\u, <—M,, \u, + p(2;,u;|D[m]) 
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10 Return {M,,\.,: Wi=1, --,2, Y z; , u; E Val(X; ,Pag )} 
Expectation-Maximization( 
G, // 贝 叶 斯 网 络 结构 

// 贝 叶 斯 网 络 初始 参数 

// 不 完整 数据 集 


//E-step 


(g 

D 

) 

1 For each t=0,1, «.. , until convergence 
2 

3 (Milu; }<-Compute-ESS(G, 6‘, D) | 

4 

5 

6 


//M-step 
For each i= 1, ...,n 
For each z; , u; € Val (X;, Paĝ, ) 
Mi, 
7 One, <= 
8 Return 6' 


4.2.2 Gibbs 抽样 方法 


Gibbs 抽样 方法 是 由 Heckerman 提出 来 用 于 不 完备 数据 参数 学 习 的 方法 之 一 。 在 贝 
叶 斯 推理 中 ,Gibbs 是 最 为 流行 的 马尔 可 夫 蒙 特 卡 罗 (MCMC) 方 法 之 一 。Gibbs 把 含有 不 
完备 数据 集 D 的 每 一 个 缺 项 当 作 待 估 计 参 数 , 通 过 对 未 知 参 数 后 验 分 布 的 一 系列 随机 抽样 
过 程 , 计 算 参 数 的 后 验 均值 的 经 验 估计 。 

Gibbs 抽样 法 的 基本 思想 是 利用 已 有 数据 推断 丢失 的 数据 ,使 具有 丢失 数据 的 数据 库 
成 为 完整 的 数据 库 。 其 近似 参数 后 验 的 概率 分 布 的 基本 步骤 如 下 : 

© 随机 初始 化 每 个 数据 样本 中 的 缺 值 变量 ,得 到 一 完整 的 数据 集 D.. 

O 选择 某 个 在 原 数据 集中 缺失 的 变量 值 zs (变量 xz; 在 第 1 个 样本 中 的 取 值 ) ,去 掉 其 
初始 化 的 值 ,并 利用 下 面 的 公式 计算 概率 分 布 : 

/ P(x,,D./za) 
Plza| Delta) = SP (2 »D./ 24) (4, 2) 
AP ,D./ u HED. 中 去 掉 zz 值 的 数据 集 ; zz 为 某 一 种 状态 ; zi AMAT BERRA; 分 母 
是 对 zz 的 所 有 可 能 情况 的 求 和 ,分 子 和 分 母 利 用 完备 数据 集 的 似 然 计算 公式 进行 计算 。 

O 根据 概率 分 布 对 丢失 数据 进行 修正 ,对 数据 集中 每 一 个 缺失 值 , 重复 步骤 加 ,从 而 
得 到 新 的 完备 数据 集 D: 。 

@ 利用 完备 数据 集 D: ,计算 参数 后 验 的 概率 分 布 P(O|D: ,S) 。 

© 重复 前 4 个 步骤 。 

© 将 每 次 迭代 的 参数 估计 P(b|D:,S) 的 均值 作为 最 终 的 参数 估计 。 


4.3 结构 学 习 
4.3.1 结构 EM 算法 
结构 EM(Structural EM,SEM) 算 法 是 贝 叶 斯 网 络 缺 值 数 据 下 的 结构 学 习 的 主要 算 
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法 。Friedman 对 贝 叶 斯 网 络 的 结构 学 习 提 出 了 SEM 算法 ,其 中 包含 与 EM 相同 的 Estep, 
SEM 的 M-step 是 根据 E-step 修补 后 的 数据 和 当前 的 网 络 结构 ,评价 任意 一 个 候选 网 络 结 
构 ,其 网 络 结构 的 评价 函数 可 以 是 包括 BIC 评分 在 内 的 任意 一 个 评分 函数 ,那么 最 终 的 结 
构 应 该 是 分 值 最 高 的 。 

它 的 基本 思想 是 : 从 某 初始 模型 结构 OC 和 参数 8 出 发 开始 和 欠 代 ,在 进行 了 上 次 和 迭代 得 
到 了 (G:,# ) 后 ,第 上 十 1 次 迭代 由 以 下 两 个 步骤 组 成 : 

(1) 基于 (G: ,0') 对 数据 进行 修补 ,使 之 完整 。 

(2) 基于 修补 后 的 完整 数据 D 对 模型 及 参数 进行 一 步 优化 ,得 到 (G*? ,0 )。 

在 SEM 中 ,基于 数据 D 进行 一 次 优化 未 必得 到 基于 D' 的 最 优 模 型 结构 ,因为 在 完整 
数据 下 ,模型 结构 优化 不 是 一 步 就 完成 的 。 所 以 ,SEM 不 是 每 次 迭代 都 同时 优化 模型 结构 
和 参数 ,而 是 先 固 定 模型 结构 , 即 规定 GH =G ,进行 数 次 参数 优化 后 ,再 进行 一 次 结构 加 参 
数 优 化 ,如 此 交替 进行 。 

SEM 算法 的 伪 代 码 如 下 : 


Algorithm4.2 The structural EM algorithm for BN structure learning 
SEM( 

CG, // 初 始 网 络 结构 

90" ，// 初 始 参数 值 

D, // 缺 值 数据 集 

R // 两 次 结构 优化 之 间 的 参数 优化 次 数 


) 
1 For :一 0, … ,until convergence 

2 For r=0 to 有人 一 1 

3 br+1<e Expectation-Maximization(G',@"", D) 

4 0:=0°® 

5 L- 所 有 对 G 做 一 次 加 边 、 减 边 或 转 边 而 得 到 的 候选 模型 结构 
6 Gt!<arg max Score(G| Dt, 6’) 

7 Ot) °<— 估计 G :的 参数 值 

8 If(Score(G'*! , 0+1 |D)<Score(G', 6! | D)) 

9 Return(G', 6’) 

10 Return(G‘t! ,b+1) 


SEM 算法 先进 行 R 次 参数 优化 (2, 3 两 行 ), 接 着 同时 优化 模型 结构 及 参数 (6.7 两 
行 )。 如 果 模 型 加 参数 优化 得 到 评分 更 高 的 模型 ,SEM 就 重复 前 面 的 运算 ,否则 就 停止 并 返 
回 找到 得 评分 最 高 的 贝 叶 斯 网 (8、9 两 行 )。 

对 于 DBNs 的 结构 学 习 ,Friedman 对 SEM 算法 进行 了 扩展 。 

we L=((X [0] YOD, ++, (Xi[T],Y[TJ])} 为 少量 完整 数据 序列 集 ,U=={(X;[0]),…， 
CX;[LTJ)} 为 不 完整 数据 序列 集 ,其 DBNs-SEM 算法 描述 如 下 : 





Algorithm4.3 The structural EM algorithm for DBN learning 
DBNs-SEM( 


L, // 少 量 完 整数 据 集 
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// 大 量 完整 数据 集 


U 
) 
1 使 用 工学 习 一 个 初始 动态 贝 叶 斯 网 络 (B4 BS.) 

2 For n 一 0,1, … 直 到 满足 停止 条 件 

3 FL AU, AA EM 算法 对 DBNs 进行 参数 学 习 , 获得 参数 提高 (B3 B” ) 和 修补 后 数据 U' 
4 基于 工 和 U ,对 (Bi ,B" ) 的 每 个 候选 网 络 结构 计算 评分 函数 

5 选择 评分 最 高 的 网 络 结构 作为 (Bi Bat?) 、 

6 W (Bi ,BM!) 过 (B38,B")), 那 么 返回 (Bs ,B™ ) 

7 返回 (B31! Bt") 


4. 3.2 打分 -搜索 方法 


在 3.2 节 中 曾经 介绍 了 在 完整 数据 集 下 应 用 BIC 评分 函数 和 BDe 评分 函数 来 学 习 网 
络 结构 。 那 么 当 数 据 缺 失 情 况 下 ,怎样 运用 这 些 评 分 函数 进行 结构 学 习 呢 ? 可 以 这 样 来 看 ， 
想 要 的 评分 同 在 完整 数据 下 的 评分 是 一 样 的 ,有 


scores(G:D) = logP(D | G) + logP(G) (4, 3) 
这 里 PCDIG) 是 数据 的 边界 似 然 , 即 
P(D|G = i PCD | 0¢+G) P(e | GY dOe (4, 4) 


在 完整 数据 集 下 ,，P(CD1GC) 的 积分 计算 内 部 是 可 分 解 的 乘法 因 式 ， 可 以 被 简化 。 但 是 ， 
在 不 完整 数据 集 下 ,这 个 后 验 概 率 是 不 能 被 分 解 的 。 
然而 ,可 以 把 PCLD1G) 的 计算 看 作 是 一 个 推理 问题 。 对 于 大 多 数 的 不 完整 数据 学 习 问 
题 ,推理 是 很 难处 理 的 ,通常 可 以 采取 Laplace WWA. Asymptotic 近似 .Cheeseman-Stutz 近 
似 \ 候 选 方法 等 不 同 策略 来 解决 5 。 
下 面 简单 介绍 一 下 候选 方法 的 基本 思想 。 
候选 方法 利用 参数 的 候选 集 来 估计 P(CD1G)。 对 于 任意 一 组 参数 的 集合 ,利用 概率 的 
链 规则 ,可 以 写 出 两 种 不 同 的 P(D,b1G) 表 达 式 , 即 
P(D,6| G) = P(D | 6,G)P(@| G) 
P(D,6| G) = P(@| D,G)P(D | © (4.5) 
两 式 右边 相等 ,可 以 推出 


PCD | G) = P(D | 6,@)P@ | G) 


P(@ | D,G) 
式 中 ,分 子 上 的 PCD10,G) 为 给 定 9 后 观测 数据 的 似 然 ,其 可 以 用 精确 推理 或 近似 推理 来 估 
计 ; P(0|1G) 为 参数 的 先 验 ,通常 已 给 定 ; 分 母 上 的 P(0|1D,G) 是 参数 的 后 验 ,可 以 使 用 
MCMC 抽样 参数 候选 集 的 方法 来 估计 。 当 然 估 计 的 准确 与 否 ,决定 于 MCMC 抽样 器 的 设 
计 , 要 求 估计 值 越 准确 ,那么 相应 的 MCMC 抽样 计算 量 也 增加 ,其 完全 可 以 达到 精确 估计 
P(9|D,G) ,从 而 得 到 精确 估计 的 PCDIG) 。 

确定 计算 网 络 结构 的 评分 策略 以 后 ,可 以 用 搜索 算法 对 候选 网 络 进行 打分 , 找 出 评分 最 
高 的 网 络 作为 最 终 的 网 络 结构 。 但 是 对 于 像 候 山 法 一 类 的 搜索 算法 ,并 不 能 直接 应 用 ,因为 
这 类 方法 依赖 于 PCD|G) 的 可 分 解 性 。 


(4. 6) 
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5.1 概述 


在 第 3 章 和 第 4 章 中 ,介绍 的 都 是 有 向 概率 图 模型 ， 或 者 说 是 贝 叶 斯 网 络 的 学 习 方 法 ， 
这 些 模 型 能 够 从 结构 和 参数 上 自然 表达 现实 世界 的 一 些 典 型 问题 。 然 而 在 本 章 中 ,将 关注 
另 一 种 概率 图 模型 的 学 习 , 即 无 向 概率 图 模型 的 学 习 。 

正如 第 2 章 描述 的 ,无 向 概率 图 模型 适合 对 无 法 描述 变量 间 方 向 性 的 问题 进行 建 模 。 
由 于 马尔 可 夫 随 机 场 (MRFs) 和 条 件 随机 场 (CRFs) 是 应 用 最 广泛 和 最 具 代 表 性 的 无 向 概 
率 图 模型 ,因此 ,在 本 章 对 两 者 分 别 从 概念 .参数 学 习 方 法 到 结构 学 习 方 法 作 一 详细 论述 。 


5.2 马尔 可 夫 随 机 场 


马尔 可 夫 随 机 场 (Markov Random Fields,MRFs) 是 概率 理论 的 一 个 分 支 ,用 来 分 析 物 
理 现象 的 空间 关系 或 者 非 因 果 上 下 文 关系 。 在 图 像 处 理 领 域 ,马尔 可 夫 随 机 场 理 论 能 够 很 
好 地 描述 相 邻 的 图 像 像素 或 者 相关 特征 间 的 相互 依赖 关系 。Hamersley 和 Clifford 确定 了 
马尔 可 夫 随 机 场 与 Gibbs 分 布 之 间 的 等 价 性 。Besag 进一步 将 其 发 展 为 马尔 可 夫 联合 分 
布 。 这 些 研究 成 果 使 得 可 以 在 贝 叶 斯 框架 下 用 数学 方法 来 建 模 图 像 分 析 中 的 视觉 问题 。 马 
尔 可 夫 模 型 主要 用 于 图 像 的 低层 次 的 处 理 , 如 图 像 复原 与 分 割 、 表 面 重建 .边缘 检测 ,纹理 分 
析 等 ,而 在 高 层次 主要 用 于 目标 匹配 与 识别 。 
假定 让 X= {Xi,X:,… ,Xn} 表 示 定 义 在 一 组 位 置 (Site) 集 
合 V 上 的 一 组 随机 变量 集合 , 称 为 随机 场 ,那么 当 且 仅 当 满足 以 
下 条 件 时 ,随机 场 X 是 在 V 上 关于 领域 系统 NN 的 马尔 可 夫 随 机 
场 , 即 i 
P(x) >0,VxEX, 非 负 性 ; 
P(x; | zva) = PCa; | zn) BRAKE; 
图 5.1 一 个 马尔 可 夫 随 其 中 ,zn = (2; | i E Ni),zi 为 随机 变量 X, 的 一 个 取 值 。 在 
机 场 示例 图 5. 1 中 , 灰色 的 结 点 为 Xi ,黑色 结 点 为 X: 的 邻 域 结 点 。 


5.2.1 Api AH Fe A 


邻 域 关系 具有 以 下 特性 : 
O 某 结 点 的 邻 域 不 包括 结 点 本 身 : i& N;。 
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@ 邻 域 关 系 是 相互 的 : iC Nr 人 ENi。 

O 邻 域 系统 有 不 同 的 阶 数 。 对 于 二 维 图 像 ,一 阶 邻 域 系统 ,又 称 为 四 邻 域 系统 ,如 
图 5. 2(a) 所 示 ,每 个 内 部 的 点 都 有 4 个 相 邻 点 ,X 表示 被 考虑 的 点 ,O 表示 它 的 相 邻 点 。2 阶 
邻 域 系统 ,也 称 为 八 邻 域 系统 ,如 图 5. 2(b) 所 示 ,每 个 内 部 的 点 都 有 8 个 相 邻 点 。 图 5. 2(c) 中 
的 数字 n 二 1,2,…,5 表示 在 n 阶 邻 域 系 统 中 最 外 层 的 相 邻 点 。 





图 5.2 领域 关系 


一 个 团 (Clique)c 被 定义 为 一 组 位 置 集合 V 的 一 个 子 集 ,在 一 个 团 里 面 ,所 有 的 结 点 对 
都 相互 连接 。 例 如 ,对 于 一 个 八 邻 域 系统 ,如 图 5. 3 所 示 , 图 5.4 给 出 了 它 所 有 的 团 类 型 。 
第 一 个 为 空 团 ,第 二 个 为 单 点 团 , 第 三 个 与 第 四 个 分 别 为 水 平 与 竖 直 方向 的 两 点 团 ,第 五 个 
为 对 角 线 形 的 两 点 团 , 第 六 个 为 三 点 团 , 第 七 个 为 四 点 团 。 可 以 看 出 , 随 着 阶 数 的 增长 , 团 的 
数量 也 随 着 急剧 上 升 ,同时 计算 量 也 增加 。 


Pal? wl 


图 5.3 一 个 八 邻 域 系统 图 5.4 八 邻 域 系 统 的 团 类 型 


当 且 仅 当 它 不 是 其 他 团 的 子 图 时 ,一 个 团 为 极 大 团 (Maximal Clique); 当 且 仅 当 它 的 点 
集 模 最 大 ,一 个 团 为 最 大 团 (Maximum Clique), WA 5. 5 所 示 , 极 大 团 有 {2,3}、{3,4}、{4,5)、 
{4,6} 和 {1,2,5) ,最 大 团 为 {1,2,5}。 

在 图 5.6 中 , 极 大 团 为 {6}、{1,2)、{4,5} 和 {2,3,4}) ,最 大 团 为 {2,3,4)。 


G) 
bo 


图 5.5 极 大 团 和 最 大 团 图 5.6 极 大 团 和 最 大 团 





5.2.2 HC 定理 
给 定 一 个 MRFs，HC(Hammersley-Clifford) 定 理 可 以 被 用 来 计算 联合 概率 分 布 , 即 
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pr) = LT] ve . (5.1) 
Lee 


Rp, 为 极 大 团 ; C 为 所 有 极 大 团 的 集合 ; z 为 团 c 上 的 一 组 随机 变量 取 值 ; Z 是 一 个 归 
一 化 常量 ,通常 称 为 配 分 函数 ,确保 p(z) 的 积分 为 1; Vv. 为 非 负 势 函数 。 
例如 ,在 图 5.6 中 , 联合 概率 分 布 可 以 写成 式 (5.2), 即 


p(x) = SU (2122) Wo34 (222324) Vis (2425) Ve Cze) (5. 2) 


5.2.3 Pairwise MRF 模型 0) 


Pairwise MRF 模型 是 广泛 应 用 的 一 种 MRFs 模型 ,如 


图 5.7 所 示 , 其 结构 形式 简单 和 计算 量 低 。 G) (x) 
根据 HC 定理 ,其 联合 概率 分 布 可 以 写成 以 下 形式 , 即 的 一 = 


plaz,y) = Fra) Toc.» (5. 3) 


$ 图 5.7 Pairwise MRF .模型 
式 中 ,z 为 标注 类 ; y 为 观测 值 。 


5.2.4 MRFs 的 参数 学 习 


1. 最 大 似 然 估计 法 


可 以 基于 最 大 似 然 估 计 法 来 学 习 无 向 概率 图 模型 的 参数 。 然 而 ,由 于 归 一 化 常数 Z 联 
合 了 模型 中 所 有 参数 ,因此 无 向 概率 图 模型 的 参数 学 习 更 加 困难 。 

例如 ,给 定 一 组 独立 同 分 布 的 训练 数据 {zx*}t1, 想 要 学 习 以 下 的 一 个 MRF 模型 参 
数 , 即 


1 
p(X |) = zrexp[— 2V. x0) ] (5.4) 
注意 到 配 分 函数 Z 是 依赖 于 参数 的 ,因为 它 是 由 式 (5. 5) 计 算出 来 的 , 即 
Z= J e|- E .VCX,b)] (5. 5) 


基于 最 大 似 然 参 数 估 计 法 的 原理 ,最 优 参数 可 以 通过 式 (5. 6) 被 估计 出 来 , 即 
= argmax [| p(x | 0) (5.6) 


通过 使 用 梯度 上 升 方法 来 最 大 化 Log-likehood( 对 数 似 然 函 数 ) ,可 以 获得 式 (5. 6) 的 最 
优化 参数 ,对 数 似 然 函 数 为 





K K 
LO) = J logre | D = X |- 2)V.(X,0) — log2(0) | (5.7) 
k=1 k=1 EC 
对 数 似 然 函数 的 微分 方程 为 
aL) _ ~ [- 5 VD | ,一 aog2(O ] 
aD GAL 和 æ SaR 30 


k=1 EC EC 


在 这 个 公式 中 ,第 二 个 梯度 项 来 自 于 归 一 化 常数 。 注意 到 这 个 梯度 项 包含 了 所 有 X 的 
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概率 值 的 和 。 当 X 的 随机 变量 数目 很 大 时 ,计算 量 是 指数 增加 的 ,并 会 迅速 导致 不 可 计算 。 
不 过 , 几 个 近似 的 参数 学 习 方法 已 经 被 提出 来 解决 这 个 问题 。 在 最 大 似 然 估计 框架 中 ， 
这 些 方法 以 不 同 的 方式 近似 估计 似 然 函数 或 配 分 函数 Z(0) 的 期 望 值 。 


2. 近似 方法 


MRF 模型 参数 学 习 的 近似 方法 包括 以 下 几 种 : 
(1) Iterative Proportional Fitting (IPF) [4 。 


(2) Pseudo-likelihood approximation [5] , 


(3) Saddle point approximation °° 。 


(4) Piecewise training” , 


(5) Approximate ML estimation by pseudo— moment matching! 。 
(6) Parameter learning with Gibbs/MCMC sampling”! , 


(7) Learning with contrastive divergence!!! , 


(8) Max-Margin parameter learning™™ , 


这 些 方法 的 主要 原理 是 避免 精确 地 计算 部 分 函数 的 对 数 及 其 微分 。 例 如 ，Pseudo- 
likelihood approximation 使 用 局 部 Pseudo-likelihood 的 乘积 近似 估计 似 然 , 这 可 以 通过 假 
设 近 邻 变 量 是 已 知 来 进行 计算 。 给 定 这 个 假设 ,Pseudo-likelihood 能 够 被 局 部 归 一 化 ,这 
是 很 容易 计算 出 来 的 。 这 个 性 质 使 得 Pseudo-likelihood approximation 成 为 一 个 非常 有 效 
的 参数 学 习 方法 ,虽然 有 一 定 的 精度 损失 。 更 详细 地 讨论 这 些 方法 ,读者 可 参阅 相关 的 原始 
论文 。 

总 而 言 之 ,最 大 似 然 估计 方法 和 近似 方法 都 是 基于 完整 的 训练 数据 来 学 习 MRFs 参数 
的 , 即 训练 数据 的 所 有 类 标签 都 是 已 知 的 。 对 于 不 完整 数据 的 学 习 , 通 常 使 用 EM 方法 ， 
EM 方法 首先 推理 出 缺失 的 数据 的 类 标签 (E-step) ,然后 使 用 整个 数据 集 更 新 模型 的 参数 
(M-step) ,使 用 这 种 方式 ,EM 把 不 完整 数据 集 的 参数 学 习 转 化 成 了 完整 数据 集 的 参数 学 
J. EM 和 迭代 进行 该 过 程 ,直到 学 习 过 程 收敛 。 


5.3 条件 随机 场 


条 件 随 机 场 (Conditional Random Fields，CRFs) 的 概念 由 John Lafferty, Andrew 
McCallum 和 Femando Peerira 在 2001 年 首次 提出 。 自 被 提出 以 来 ,在 计算 机 视觉 .自然 语 
言 处 理 等 领域 得 到 了 广泛 的 应 用 。CRFs 是 用 来 标注 和 划分 序列 结构 数据 的 概率 化 结构 模 
型 。 言 下 之 意 ,就 是 给 定 的 输出 标识 序列 X 和 观察 序列 Y, 条 件 随机 场 通过 定义 条 件 概率 
p(XIY) ,而 不 是 联合 概率 p(X,Y) 来 描述 模型 ,常见 的 统计 模型 可 以 分 为 以 隐 马 尔 可 夫 模 
型 为 代表 的 生成 模型 和 以 最 大 业 模型 为 代表 的 判别 模型 。 隐 马尔 可 夫 模型 的 假设 条 件 为 : 
某 时 刻 的 观测 值 依赖 于 该 时 刻 的 隐藏 状态 ,同时 各 个 观察 值 是 相互 独立 的 ,但 实际 条 件 下 这 
一 假设 通常 很 难 满足 。 相 对 于 隐 马 尔 可 夫 模 型 ,CRFs 的 主要 优点 在 于 它 的 条 件 随机 特征 ， 
只 需要 考虑 当前 已 经 出 现 的 观测 状态 特征 ,没有 独立 性 的 严格 要 求 。 而 相对 于 最 大 焙 模 型 
和 其 他 针对 线性 序列 模型 条 件 , 隐 马尔 可 夫 模 型 会 出 现 条 件 偏 置 (Label Bias) 的 问题 ,CRFs 
避免 了 这 个 问题 ,对 于 整个 序列 内 部 的 信息 和 外 部 观测 信息 都 可 以 有 效 地 应 用 。CRFs 具 
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有 最 大 业 模 型 的 一 切 优点 ,两 者 的 关键 区 别 在 于 ,最 大 焙 模 型 使 用 每 一 个 当前 状态 的 指数 模 
型 来 计算 给 定 状 态 的 下 一 个 状态 的 条 件 概率 ,而 CRFs 用 单个 指数 模型 来 计算 给 定 观察 的 
整个 标记 序列 的 联合 概率 。 因 此 ,在 不 同 的 状态 .不 同 特征 的 权重 下 可 以 相互 交替 代 换 。 
CRFs 可 以 看 成 是 一 个 在 给 定 输入 结 点 条 件 下 ,计算 输出 结 点 的 条 件 概率 的 无 向 图 模 
型 。 定 义 G(V,E) 为 一 个 无 向 图 ,V 为 结 点 集合 ,EE 为 无 向 边 集 合 。X 一 (XiEV}， 即 Y 中 
的 每 个 结 点 对 应 一 个 随机 变量 X,。 如 果 以 观察 序列 Y 为 条 件 ,每 一 个 随机 变量 X, 都 满足 
以 下 特性 , 即 
p(X; | Y, Xv) = p(X; | Y, Xn,) (5.9) 
式 中 ,Ni 为 相 邻 的 结 点 。 那 么 ,(X,Y) 为 一 个 条 件 随机 场 。 根 据 HC 定理 ,可 以 得 到 下 面 的 
公式 , 即 
力 (X | Y) = AIGOS Y,0:) [| (XX; Ysu) (5.10) 


ijEN; 


理论 上 ,只 要 在 标记 序列 中 描述 了 一 定 的 条 件 独立 性 ,G 的 图 结构 可 以 是 任意 的 ,对 序 
列 建 模 可 以 是 最 简单 的 .最 普通 的 链 式 (Chain Structured) 图 结构 , 结 点 对 应 标识 序列 X 中 
的 相应 元 素 , 如 图 5. 8 所 示 。 


5.8 一 个 CRFs 模型 


假设 图 5. 8 中 的 结 点 满足 p(X;|Y, Xvy) 二 p(X;|Y,Xn), 则 
P(X; | Y, Xv) = p(X; | Y,X,,X,) (5.11) 


p(X, XX; a | Y= — F(X yy 0 WX, ‚X: YA ) PC(X5 Y ,0:) Y(X; »X4 »Y ops) 


(5.12) 
从 图 5. 8 中 还 可 以 看 出 ,观察 序列 Y 的 元 素 之 间 不 存在 图 结构 ,因为 这 里 只 是 将 观察 序列 
作为 条 件 输入 ,并 不 对 观察 序列 了 做 任何 假设 。 
条 件 随机 场 模型 需要 解决 3 个 基本 问题 : 特征 的 选取 、 参 数 训 练 和 和 解码。 其 中 参数 训 
练 的 过 程 可 在 训练 数据 集 上 基于 对 似 然 函 数 的 最 大 化 进行 
对 于 一 个 定义 为 形式 如 式 (5. 13) 的 CRFs 模型 ,有 


pix | Y) = Dexp( Dfi ze ,Ti»Y) 十 dienes xi,y)) (5.13) 
其 中 ， 
ZY) = 2 exp( Dida Loki D+ Darga a, ,y) ) (5.14) 
其 中 ,每 个 felti ox; , 习 是 标识 序列 xz 中 位 置 为 i 和 | 的 输出 结 点 的 特征 函数 ， 每 个 
gr《Xxis,y) 是 位 置 为 i 的 输入 结 点 和 输出 结 点 的 特征 函数 ,每 个 * 和 是 特征 函数 的 权重 , 可 
以 从 训练 数据 中 估计 得 到 。 通 过 分 别 为 训练 数据 中 的 每 一 个 状态 一 状态 (zx ,x) 和 状态 一 
观测 (zx,y) 定 义 特 征 函数 ,使 得 建立 的 CRFs BAA EDK OS AE. BD 
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l, ifz, 一 zz = T 
Fite Zeta VW) -1 (5. 15) 


0, otheruise 


(1, ifz, = Zie = Y 
Ezy (£us y) -1 (5. 16) 


0， otheruise 
可 以 用 广义 迭代 算法 (Generalize Iterative Scaling,GIS) 对 CRFs 模型 进行 训练 。 
如 同 前 面 几 种 模型 一 样 ,CRFs 模型 中 的 参数 也 需要 通过 训练 得 到 。 在 CRFs 中 参数 是 
指 式 (5.13) 中 的 4, 它 是 对 应 于 每 个 特征 函数 的 权重 。 


5.3.1 问题 分 析 


贝 叶 斯 学 派 认 为 ,所 有 的 未 知 属性 都 应 当 看 作 随 机 变量 ,特定 参数 下 4 的 训练 数据 T 
概率 看 作 是 条 件 概 率 分 布 p(TIX)。 和 他 们 不 同 的 是 频率 论 学 派 并 不 把 4 看 作 是 随机 变量 。 
相反 ,特定 4 下 的 训练 数据 的 概率 被 当 作 训 练 数据 上 的 一 个 用 4 标记 的 分 布 族 ,写成 paT) 
或 者 就 记 为 p(TIX)。 频 率 论 方法 进行 参数 估计 需要 借助 估计 器 (Estimator) 的 使 用 ,在 频 
率 论 体系 中 最 为 常用 的 估计 器 就 是 极 大 似 然 估计 器 。 因 此 ,CRFs 模型 的 最 大 后 验 概率 训 
练 可 以 用 最 大 似 然 的 方法 ,也 就 是 在 给 定 输入 序列 的 情况 下 估计 模型 中 相应 的 参数 ,使 它们 
对 应 的 标注 序列 构成 的 集合 的 条 件 概 率 最 大 化 。 

假设 训练 集 上 的 数据 T= (roy Y k51, NSN 为 训练 数据 集 的 规模 ) 独立 且 
与 联合 经 验 分 布 (zx,y) 同 分 布 。 应 用 于 条 件 模 型 p(x|y,4) 得 到 训练 数据 的 相似 度 函 数 为 

LA) = [|p Cx | ya» (5.17) 

最 大 似 然 估 计 (MLE) 利 用 似 然 函 数 选择 可 能 的 参数 4, 能 够 使 相似 度 函 数 最 大 化 的 参 


数 也 使 得 模型 分 布 更 接近 于 经 验 分 布 ,MLE 原理 指出 能 够 满足 相似 度 函 数 最 大 化 的 参数 4 
值 就 是 所 需要 的 参数 值 , 即 


Am. = arg maxL (A) (5. 18) 
为 了 运算 方便 ,相似 度 函 数 式 (5. 17) 往 往 表示 成 对 数 形式 ,因此 式 (5.17) 又 可 以 写成 
LA) = `) b(a,y)logp(a | ya) (5.19) 


CRFs 模型 中 ,训练 集 上 所 有 序列 p(x | ye ,4) 的 乘积 就 是 相似 度 。 对 于 CRFs 模型 
利用 对 数 极 大 似 然 估计 方法 能 够 得 到 使 相似 度 最 大 化 的 参数 值 。 其 对 数 相似 度 形式 为 


. LO) = > [tog aI F DAS a” 9) | (5. 20) 
IX BB A AE Th PH, MTT PRUE T PRS FS Je Be KA (Global Maximum). ix 744 
似 度 函数 对 于 a 的 一 阶 导数 形式 为 
ok = ¥ Bla) hilar 59) — >) BO P(e | yA) D) fates sz) 
= EX.» LA] 一 Epis [fi] (5. 21) 
式 中 ,p(x,y) 为 训练 数据 的 经 验 分 布 ; ELL. JAH p OH. KLAFFAR, ME 
最 大 焙 模 型 的 约束 条 件 : 与 模型 分 布 相对 应 的 每 个 特征 的 期 望 等 于 经 验 分 布下 的 期 望 。 可 
以 看 出 CRFs RMAGRKMRE. 
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式 (5. 21) 的 经 验 分 布 Exc.» Lf; (zx,y)] = (XF; ty) 其 中 F; Cz" sy) 表示 给 定 


观察 序列 y 和 标注 序列 z 的 特征 fi 的 个 数 , 即 2 让 (2-1 Fis Yi) 

对 式 (5. 21) ,通过 常规 的 方法 求 取 和 斜率 为 零 的 情况 来 估计 参数 值 4 很 困难 ,而 且 一 般 无 
法 得 到 一 个 封闭 的 解 ,这 就 涉及 训练 算法 的 选择 问题 。 最 大 炉 模 型 使 用 的 训练 算法 ,如 
GIS IIS 等 ,都 可 以 应 用 于 CRFs RH WV. Bb, BREAK MTA. 
Hessian 矩阵 的 逆 和 矩阵 的 计算 ,有 更 高 的 收敛 速度 。 下 面 将 对 CRFs 模型 参数 估计 中 的 训 
练 算法 进行 介绍 。 


5.3.2 模型 训练 中 的 动态 规划 


在 对 模型 中 的 参数 进行 估计 时 ,无 论 采取 迭代 收敛 还 是 基于 梯度 的 训练 算法 ,对 于 训练 
数据 中 的 每 个 观测 序列 xz” ,都 需要 有 效 地 计算 每 个 特征 函数 在 模型 分 布下 的 期 望 值 
Exziy a Lf; (zy )], 它 又 可 以 表示 为 

Epcxly® wa (F(X sy) ]= Dib (X =g | y” AF (x,y) 


= zee X Le Da F(X’, Y*))x XF, (于 307] 0.2 


式 (5. 22) 的 计算 量 是 十 分 巨大 的 ,如 果 观 察 序列 y* 具 有 PEA 那么 相对 应 的 标注 
序列 就 有 ”“ 种 可 能 ,在 这 个 数量 级 上 求 和 的 时 空 开 销 太 大 ,只 能 改 用 别 的 方法 。 式 (5. 22) 
中 的 右边 部 分 可 以 写成 


> eX = =2,X=2| yY? Afl 2,9”) (5. 23) 


这 样 就 不 需要 在 所 有 a 个 序列 上 计算 。 利用 HMM oa Backward) 
算法 的 动态 规划 方法 可 以 计算 p(X;_ 1 一 x ,X=z|y® ,A 
分 别 定义 一 个 前 向 ean onde 
1 WR y= 开始 状态 
a(z | y) -1 


其 他 
如 果 y = 停止 状态 


1 
Sy te 其 他 
则 有 以 下 的 递 推 关 系 , 即 
ai (y) 一 arl(Cy)TM;Cy) 
B (y)” = Min Cy) Ba Cy) 
其 中 Mi(y) 是 随机 变量 矩阵 ,Mi;(y) 中 的 每 个 元 素 M;(z;_1 ,zi|y) 定 义 为 ; 
M: Cz = xiy: = x | y) = exp ( PAkf sz Zis y»i)) 
Y: 和 Y;-1 ,在 给 定 观 察 序列 y* 下 取得 标记 2’ Mz 的 概率 为 


P(X = r, X; = 2 | yay = H | MiG’ z | y Bal y) (5, 24) 


Z(y) 
Z(x) iat n+1 个 Mi(z) 和 矩阵 的 (start,stop) 部 分 的 乘积 得 到 ,可 以 表示 为 
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Z(y) = Arti (y*) = B(y*) C5, 259 
将 其 代入 式 (5. 24) 中 ,就 可 以 推导 出 计算 特征 期 望 的 动态 规划 方法 。 


5.3.3 参数 估计 的 训练 算法 


CRFs 模型 训练 过 程 分 为 两 部 分 ,第 一 部 分 为 特征 函数 集 的 建立 ,第 二 部 分 为 模型 参数 
估计 , 即 计算 特征 函数 的 权重 。 前 面 已 经 对 第 一 部 分 的 工作 进行 了 详细 的 介绍 ,下 面 主 要 介 
绍 几 种 常用 的 训练 算法 。 

通常 迭代 梯度 方法 (Iterative Scaling) 用 于 CRFs 的 训练 。GIS(Generalized Iterative 
Scaling) 算 法 和 IIS(Improved Iterative Scaling) 算 法 都 属于 这 种 训练 方法 的 范畴 。 和 迭代 梯 
度 方法 比较 简单 、 容 易 实 现 , 但 是 存在 收敛 慢 的 缺点 。Wallach 尝试 了 将 变化 斜率 
(Conjugate Gradient) 方 法 和 2 阶 方法 用 于 CRFs 训练 ,达到 了 比较 好 的 效果 。L-BFGS 算 
法 相对 收敛 速度 比较 快 , 它 是 一 种 近似 的 2 阶 方法 。 不 管 是 迭代 梯度 方法 还 是 近似 2 阶 方 
法 都 是 通过 似 然 函 数 最 大 化 来 得 到 参数 的 。 下 面 介 绍 一 下 这 几 种 常用 的 训练 算法 。 


1. GIS 算法 


GIS 算法 是 由 Darroch 和 Ratliff 于 1972 年 提出 的 ,可 以 用 于 求解 特征 向 量 。 设 有 K 
个 特征 函数 f, 则 需 估计 的 参数 向 量 为 {XA142…A4)。 
首先 ,GIS 算法 要 求 ,对 于 任何 PAETAI; K 个 特征 函数 之 和 为 常量 , 即 


Bhs) =C (5. 26) 
如 果 这 一 条 件 在 实际 使 用 中 不 能 得 到 满足 ， 则 引入 一 个 新 的 特征 函数 fU=k+1), 有 
fry) =o Shine) (5. 27) 


k 
其 中 , C = yh). 


注意 ,f(y,z) 和 普通 的 特征 函数 不 同 , 它 的 变化 范围 是 0~C'。 
下 面 介绍 GIS 算法。 可 以 证 明 该 算法 收敛 于 P. 
a= 


AGH 一 ym (ee T 
j j E œ f; 


其 中 ,Ew 万 一 2 B=) lz) fiya), p(y|z)= 75 I e Df; (yx). Darroch 


和 Ratcliff 证 明了 ， L(P) 单 调 递 增 ,也 就 是 说 LC(P" SLP”), Hlim, P” =P" 
对 于 GIS 算法 ,有 以 下 步骤 : 
(1) Ez f; 的 计算 , 即 


E; f; = 2 Ply DF) (yx) = DE ,Zi) (5. 28) 
式 中 ， N 为 训练 样本 特征 函数 的 个 数 。 在 整个 递归 迁 代 过 程 中 只 需要 计算 一 次 。 
(2) Em fi 的 计算 。 在 每 次 迭代 过 程 中 , 需 计 算 Eo fj 二 D1 plapola) flyr). 
它 是 训练 过 程 中 最 耗 时 的 操作 。 ği 
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(3) 终止 条 件 。 当 工 (p(z 十 1)) 一 工 (2(2z))<e, 或 者 精度 的 增长 已 不 明显 ,就 可 考虑 终 
止 迭 代 , 因 为 这 时 ,更 多 的 迭代 不 会 使 性 能 有 明显 的 提高 。 


2. IIS 算法 


20 世纪 80 年 代 ,Della Pietra 兄弟 在 IBM 对 GIS 算法 进行 了 两 方面 的 改进 ,提出 了 改 
进 和 迭代 算法 IISCImproved Iterative Scaling) 。 这 使 得 模型 的 训练 时 间 缩 短 了 一 到 两 个 数量 
级 。IIS 算法 适用 于 任何 特征 函数 非 负 的 情况 。 算 法 描述 如 下 : 


AlgorithmS.1 IIS algorithm 
fArAz ney 一 JIIS( fı fr 多 Bee „fn P (2, y)) 
// fi „f2 pices tie 为 n 个 特征 函数 ， p (Zz, yy) 为 经 验 概率 分 布 ; 
/is An 为 n 个 参数 值 ; 
1 初始 化 Xi 二 0, ViE€E1{1,2,.…,n} 
2 Mi€ {1,2,..,n)}, 
a. 令 Ai; 为 
之 P(x) ply | z) fi Cx, yJexp Alf" (x, y)) = BCA) 


的 解 ， Heh, He =D) fiy). 


b.FAAi<A; + AA; 更 新 ); 的 值 . 
3 ”如 果 还 有 不 收敛 , HER 2; 否则 , 算法 结束 . 


3. L-BFGS 算法 


前 面 曾经 提 到 ,CRFs ROURE O ACH RR EE EB BEE TDL CRFS 模型 的 
训练 。 虽 然 IIS 算法 相对 于 GIS 在 训练 时 间 上 大 为 缩短 ,但 是 仍然 比较 长 。 在 这 里 介绍 另 
一 种 近似 的 2 阶 方法 L-BFGS 算法 ,利用 这 种 方法 训练 CRFs 模型 比 迭代 梯度 方法 快 很 多 ， 
同时 比 变化 斜率 方法 也 要 快 。 

对 于 非 线性 优化 问题 ,牛顿 方法 利用 二 阶 信息 也 就 是 利用 曲率 信息 确定 搜索 方向 。 作 
为 一 种 Quasi-Newton 方法 ,L-BFGS 通过 之 前 斜率 和 增 量 来 估计 曲率 ,通过 保留 针对 函数 
一 阶 导数 的 运动 的 有 限 尺寸 窗口 ,近似 地 得 到 相似 度 的 2 阶 导数 。 

L-BFGS 算法 可 以 看 成 黑 盒 优化 过 程 , 外 界 只 需 提供 需要 优化 的 函数 的 1 阶 导数 即 可 。 
式 (5. 21) 中 已 经 给 出 了 似 然 函数 的 一 阶 导 函 数 形式 ,为 了 克服 数据 稀 朴 问题 , 式 (5. 21) 可 以 
进行 以 下 变化 , 即 

EW — Eron Lf;Cy,7)]— B Esot afa] A (5. 29) 





注意 到 , 式 (5. 29) 和 式 (5. 21) 的 区 别 在 于 式 (5. sie feared, 该 因子 在 这 里 起 


到 一 种 平滑 作用 。 由 于 数据 样本 的 规模 和 它 包含 的 数据 类 别 有 限 ,从 而 导致 数据 稀 玖 现象 
的 产生 。 数 据 稀 朴 现 象 是 指 ,在 基于 统计 技术 的 知识 获取 方法 中 ,在 数据 样本 的 规模 不 够 大 
的 条 件 下 , 某 种 属性 变量 的 关系 在 数据 样本 中 出 现 的 次 数 很 少 ,甚至 根本 不 出 现 的 现象 。 即 
许多 合法 的 、 在 未 来 的 数据 中 可 能 要 遇 到 的 属性 关系 在 统计 数据 样本 中 出 现 的 次 数 很 少 或 
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从 未 出 现 过 ,从 而 造成 知识 短缺 的 现象 。 在 实际 应 用 中 ,数据 稀疏 的 存在 会 产生 大 量 空 值 ， 
严重 影响 后 续 处 理 的 性 能 和 效果 。 而 训练 数据 规模 的 扩大 可 能 付出 的 代价 是 相当 大 的 。 参 
数 平滑 就 是 在 训练 数据 不 足够 充分 的 条 件 下 ,采用 某 种 方式 对 统计 结果 和 概率 估计 进行 必 
要 的 调整 和 修补 ,以 降低 由 于 数据 稀疏 现象 带 来 的 统计 误差 。 在 这 里 因子 o 就 起 到 了 这 种 
作用 。 

ACS. 29) 前 两 项 为 特征 f; 的 经 验 期 望 值 和 模型 期 望 之 差 , 和 和 迭代 梯度 方法 类 似 ,面临 
着 求解 特征 函数 的 模型 期 望 这 个 问题 。 通 过 CRFs 模型 的 矩阵 计算 和 动态 规划 方法 ,这 个 
问题 可 以 很 好 地 解决 。 
5.3.4 参数 估计 的 训练 过 程 

下 面 介绍 一 下 CRFs 模型 训练 的 过 程 。 

模型 的 训练 过 程 描 述 如 下 : 

输入 特征 模板 集 ,迭代 次 数 ,特征 出 现 次 数 ,平滑 因子 o 

输出 ”特征 函数 集 下 及 其 参数 集 X: 

训练 流程 如 下 : 

C1) 通过 动态 规划 方法 获得 特征 函数 的 模型 期 望 和 经 验 期 望 。 


D 通过 平滑 因子 ,特征 的 模型 期 望 , 经 验 期 望 得 到 “5 ,送信 训练 算法 模块 进行 训 


练 并 且 获 得 修正 后 的 参数 。 如 果 到 了 和 迭代 中 止 条 件 . 退 出 循环 .训练 结束 ,否则 转 到 (1) 。 
模型 训练 模块 结构 如 图 5. 9 所 示 。 


平滑 因子 o 


模型 特 F 
He 
ARKAA 
修正 过 的 模型 参数 4 
5.9 CRFs 的 训练 过 程 


平滑 因子 能够 解决 训练 规模 不 足 造 成 的 数据 稀疏 问题 。) 的 最 终 收 敛 程度 由 和 迭代 次 
数 决定 。 
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6.1 概述 


近年 来 ， 随 着 概率 图 模型 应 用 领域 的 不 断 扩大 ，, 在 模式 识别 和 数据 挖掘 等 研究 任务 
中 ,传统 的 概率 图 模型 的 学 习 方法 遇 到 了 新 的 挑战 。 例 如 ,系统 建 模 所 需 的 大 量 带 类 标签 训 
练 数据 获取 十 分 困难 ,应 用 系统 要 求 在 线 学 习 , 或 者 由 于 计算 系统 内 存 不 足 导 致 大 数据 量 的 
训练 样本 不 能 一 次 性 装载 等 特殊 问题 。 这 些 问 题 的 出 现 ,导致 了 传统 的 概率 图 模型 学 习 方 
法 不 能 进行 应 用 ,或 者 所 建 模型 性 能 较 差 。 | 

为 此 ,研究 者 们 在 基于 传统 学 习 方 法 的 基础 上 ,提出 了 多 种 概率 图 模型 的 新 型 学 习 方 
法 。 本 章 主要 针对 贝 叶 斯 网 络 的 主动 学 习 和 增 量 学 习 方 法 进行 详细 论述 。 


6.2 主动 学 习 方法 


主动 学 习 的 目标 是 选择 较 少 有 价值 样本 数据 学 习 高 质量 分 类 或 识别 模型 。 将 其 引入 概 
率 图 模型 的 学 习 , 主要 是 解决 大 数据 量 带 类 标注 数据 难以 获得 的 问题 。 

机 器 学 习 实 质 上 是 根据 特殊 实例 得 到 一 般 概 念 , 并 将 此 概念 运用 到 未 知 样本 的 归纳 及 
演绎 过 程 。 传 统 机 器 学 习 中 的 训练 样本 通常 由 外 部 施 教 者 提供 , 或 任意 采样 自 潜在 的 数据 
分 布 ， 也 称 为 被 动 学 习 (Passive Learning) 。 而 假若 学 习 器 能 够 主宰 学 习 进 程 , 可 自主 选择 
需要 查询 (或 标记 ) 的 实例 ,然后 基于 外 部 施 教 者 对 实例 的 真实 响应 (或 分 类 ) 进 行 学 习 , 则 会 
显著 改善 学 习 过 程 和 结果 ,此 为 主动 学 习 (Active Learning)。 

相对 于 传统 被 动 学 习 , 主动 学 习 中 学 习 器 取得 一 定 主 动 权 通过 研究 数据 聚集 类 或 分 布 
结构 等 ,选择 对 学 习 过 程 最 有 用 的 代表 性 样本 请 求 用 户 响 应 (或 标记 ) ,以 加 快 学 习 过 程 并 提 
高 所 学 概念 的 准确 性 ,同时 减少 所 需 训练 的 样本 数目 。 主 动 学 习 器 选择 实例 并 请 求 外 界 响 
应 的 过 程 称 为 查询 (Query) 。 

主动 学 习 方法 主要 研究 所 应 采取 的 选择 策略 以 提出 好 的 查询 ,其 寻找 能 最 有 效 利用 有 
限 训 练 样本 的 途径 ,通过 尽量 少 的 查询 样本 获取 最 大 限度 的 有 用 信息 。 本 章 详细 介绍 主动 
学 习 的 原理 及 其 常用 选择 策略 ,并 对 基于 主动 学 习 的 贝 叶 斯 网 络 分 类 器 的 建立 和 贝 叶 斯 网 
络 结 构 的 主动 学 习 方 法 进行 阐述 。 
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6.2.1 主动 学 习 原 理 
1. 基本 原理 


传统 监督 学 习 通 常 利用 任意 采样 的 方式 从 潜在 分 布 中 收集 大 量 样本 ,然后 根据 样本 推 
断 分 类 器 或 模型 假设 ,可 称 为 被 动 学 习 , 如 图 6. 1 所 示 。 被 动 学 习 器 是 “从 样本 中 学 习 ” 它 
随机 地 选择 训练 样本 ,被动 地 接受 这 些 样本 的 信息 ,输出 分 类 器 或 模型 假设 。 目 前 大 部 分 模 
式 识 别 算法 (如 SVM 、 神 经 网 络 、 贝 叶 斯 网 络 等 ) 几 乎 都 采用 被 动 学 习 方 式 , 它 使 用 给 定 的 大 
数据 量 训练 样本 学 习 模 型 参数 和 结构 ,其 训练 数据 必须 完整 。 


现实 数据 被 动 学 习 器 
图 6.1 被 动 学 习 方式 


然而 样本 的 收集 与 标注 要 花费 巨大 的 人 力 和 物力 ,在 整个 监督 学 习 过 程 中 所 占 比 例 更 
是 达到 令 人 吃惊 的 地 步 。 因 此 ,学 习 器 所 得 到 的 训练 样本 集 比 较 有 限 ,导致 纯粹 的 监督 学 习 
算法 泛 化 能 力 较 低 。 而 正 是 由 于 用 户 标记 的 样本 数目 有 限 以 致 训练 数据 的 获取 需 付 出 较 大 
代价 ,使 得 如 何 选 择 更 为 有 效 的 样本 成 为 一 个 极 具 价值 的 研究 问题 。 

一 般 学 习 器 通常 在 假设 数据 为 独立 同 分 布 情况 下 ,通过 任意 取样 得 到 训练 样本 集 , 但 所 
得 到 的 训练 样本 集 实际 是 有 元 余 的 。 如 果 对 采样 过 程 进行 合理 引导 ,可 利用 较 少 训练 样本 
达到 相同 学 习 效 果 。 具 体 方法 则 是 考虑 赋予 学 习 器 对 于 样本 的 选择 权 主 动 查询 用 户 , 也 即 
为 主动 学 习 方 法 的 基本 思想 。 

主动 学 习 基 于 对 数据 分 布 的 分 析 及 外 界 对 已 有 样本 的 响应 (标记 情况, 通过 对 特定 样 
本 的 查询 来 引导 采样 过 程 ,如 图 6. 2 所 示 ,也 称 为 查询 方式 的 主动 学 习 算 法 。 主 动 学 习 器 在 
查询 外 界 施 教 者 及 接收 反馈 的 交互 过 程 中 获取 信息 ,输出 分 类 器 或 模型 假设 。 学 习 的 初始 
阶段 ,多 数 样本 有 用 性 程度 较 高 , 随 着 交互 过 程 的 进行 ,模型 性 能 得 到 提高 ,此 时 , 仅 有 少 部 
分 样本 对 于 模型 性 能 的 进一步 提升 是 有 用 的 ,通过 样本 的 合理 选择 ,完全 有 可 能 减少 所 需 训 
练 样本 的 数量 。 

查询 


EE — ED 


响应 
图 6.2 主动 学 习 方 式 


主动 学 习 与 被 动 学 习 的 不 同 在 于 ,被 动 学 习 只 是 简单 接收 外 界 的 任意 信息 ,而 主动 学 习 
可 主动 选择 所 期 望 的 信息 ,其 性 能 在 很 多 情况 下 相对 被 动 学 习 有 所 提高 。 主 动 学 习 的 研究 
目标 是 寻找 某 种 途径 来 选择 对 于 学 习 过 程 最 有 用 的 查询 (样本 ) ,以 在 查询 过 程 中 得 到 尽 可 
能 多 信息 的 同时 ,利用 所 得 信息 尽快 终止 搜索 过 程 。 最 有 用 查询 (样本 ) 则 是 指 能 够 最 大 可 
能 改善 当前 所 得 模型 性 能 的 查询 (样本 ) ,以 减少 所 需 响 应 的 查询 数目 ,同时 最 小 化 查询 学 习 
所 需 的 迭代 次 数 以 加 快 学习 过 程 及 提高 所 学 概念 的 准确 性 。Freund 等 从 理论 上 证 明 ,在 一 
定 假设 条 件 下 ,采用 合理 的 主动 采样 策略 达到 相同 学 习 效 果 ( 即 相同 泛 化 误差 ， 
Generalization Error), 所 需 训练 样本 可 减少 到 任意 采样 情况 下 的 对 数 倍 , 而 假设 通过 查询 
用 户 总 是 可 以 得 到 高 的 期 望 信息 ,主动 学 习 的 泛 化 误差 将 以 所 查询 样本 数量 指数 倍 的 速度 
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下 降 。 

主动 学 习 的 目的 是 使 用 尽 可 能 少 的 训练 数据 来 学 习 高 性 能 的 分 类 器 ,从 而 有 效 减少 人 
工 标注 样本 的 代价 。 主 动 学 习 目 前 有 相当 多 的 研究 ,其 基本 原理 是 基于 少量 的 完整 训练 样 
本 工 建 立 初 始 模 型 (或 分 类 器 ) ,每 次 学 习 过 程 中 学 习 器 可 以 主动 在 不 完整 (或 未 带 类 标注 
的 ) 候 选 样本 集 U 中 选择 最 有 利于 模型 性 能 的 样本 X,, 并 将 这 些 样本 以 一 定 的 方式 加 入 到 
训练 集中 来 进一步 训练 模型 ,如 图 6. 3 所 示 。 





训练 数据 集 (Z) 
(完整 数据 集 ) 
{@, Vi} 


at > | 
二 33 aan | 
{xi} +) 


图 6.3 主动 学 习 的 基本 原理 


有 两 种 主动 学 习 模 型 ;一 种 为 基于 池 (Pool-based) 的 主动 学 习 模 型 ; 另 一 种 为 基于 流 
(Stream-based) 的 主动 学 习 模 型 ( 见 图 6. 4) 。 










模型 或 分 类 器 
a) HO) 









候选 数据 集 (U0) 
(不 完整 数据 集 ) 
{xi} 







基于 池 的 主动 学 习 模型 基于 流 的 主动 学 习 模型 
时 间 / 
—exXe HB-B 
实例 流 
x 未 标注 样本 
a o 标注 样本 
实例 池 e 已 参加 训练 的 标注 样本 


图 6.4 基于 池 与 基于 流 的 主动 学 习 模 型 比较 


基于 流 的 主动 学 习 模 型 在 每 次 选择 当前 输入 的 一 个 查询 (或 未 标记 的 样本 ) ,然后 按照 
某 种 启发 式 规则 决定 是 否 选 用 该 查询 (样本 )。 如 果 该 查询 (样本 ) 被 选择 , 则 向 外 界 施 教 者 
询问 其 实际 的 响应 (或 类 标记 ) ,将 它 加 入 训练 集 ,重新 训练 模型 (或 分 类 器 ) ,接着 利用 当前 
的 模型 (或 分 类 器 ) 再 选择 下 一 个 查询 (或 未 标记 的 样本 ) 继 续 学 习 , 直 到 查询 集 (或 未 标记 样 
本 集 ) 为 空 或 达到 某 种 精度 。 

1994 年 由 Lewis 和 Gale 提出 了 基于 池 的 主动 学 习 模 型 ,在 该 模型 中 ,由 所 有 查询 (或 
未 加 标记 的 样本 ) 组 成 一 个 样本 池 ,而 学 习 器 在 学 习 过 程 中 可 以 访问 这 个 池 ,并 可 以 询问 池 
中 任意 一 个 查询 (或 样本 ) 的 实际 响应 (或 标记 ) 。 其 学 习 也 是 一 个 循环 反复 的 过 程 。 首 先 ， 
主动 学 习 器 从 很 少 的 完整 样本 开始 学 习 训 练 一 个 分 类 器 ,然后 按照 某 种 启发 式 规则 (采样 算 
法 ) ,选择 另外 的 很 少 的 被 认为 是 最 有 利 模 型 性 能 的 查询 (或 样本 ) ,询问 它们 的 实际 响应 (或 
标记 ) ,将 它们 加 入 到 原来 的 训练 样本 集合 中 ,通过 对 这 个 新 的 训练 样本 集合 的 学 习 , 更 新 原 
来 的 知识 ,接着 再 选择 一 些 查 询 ( 或 未 标记 的 样本 ) 继 续 学 习 , 直 到 池 中 样本 集 为 空 或 达到 某 
种 指标 。 
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基于 池 的 主动 学 习 模 型 有 一 定 的 理论 缺陷 ,尤其 是 不 考虑 输入 数据 的 分 布 情况 ,同时 在 
计算 上 也 有 不 利 的 一 面 , 即 在 选择 训练 样本 数据 之 前 必须 搜索 整个 空间 ,检测 大 量 的 样本 数 
据 , 才 能 确定 哪些 查询 (或 样本 ) 被 选择 。 


2. 选择 策略 


构造 主动 学 习 器 ,采取 何 种 选择 策略 是 关键 , 即 如何 衡 量 某 查询 (或 样本 ) 的 响应 (或 标记 ) 
所 能 提供 的 信息 量 。 评 价 某 个 查询 (或 样本 ) 的 方法 依赖 于 当前 学 习 器 对 未 知 关系 p(x,y) 所 
得 到 的 假设 (Hypothesis) 或 信任 (Belief)。 通 常 所 选择 的 查询 (或 样本 ) 的 响应 (或 标记 ) 需 
能 提供 足够 信息 ,以 构建 使 得 某 精度 标准 最 大 化 的 假设 。 评 价 方法 直接 关系 到 整个 算法 的 
性 能 。 下 面 以 建立 分 类 器 为 目标 , 给 出 几 种 常用 的 评价 查询 (或 样本 ) 的 采样 策略 。 

(1) 基于 不 确定 性 抽样 的 选择 策略 

在 《机 器 学 习 ) 一 书 中 提 到 ,“ 最 有 分 类 歧义 性 的 实例 也 一 定 最 能 提供 新 的 分 类 信息 ”, 基 
于 不 确定 性 抽样 的 选择 策略 就 是 选择 当前 分 类 器 对 其 类 别 最 不 确定 的 样本 查询 用 户 , 也 称 
为 单 学 习 器 的 方法 。 该 方法 最 初 来 源 于 Cohn 等 提出 的 选择 性 采样 方法 ; Lewis 等 提出 一 
种 基于 池 的 不 确定 性 采样 方法 用 于 文本 分 类 ,利用 概率 分 类 器 选择 后 验 概率 p(y|x) 为 
0.5+6/2 的 样本 查询 用 户 ; Tong 等 提出 一 种 基于 支撑 向 量 机 的 不 确定 性 采样 方法 (Active 
SVM) ,选择 距离 SVM 分 界面 最 近 的 样本 来 查询 用 户 。 基 于 单 学 习 器 的 不 确定 性 采样 方法 
利用 指定 学 习 器 的 启发 式 搜索 实现 样本 选择 ,其 假设 前 提 为 当前 学 习 器 对 于 新 的 样本 能 够 
正确 分 类 。 该 类 方法 需要 分 类 器 不 仅 提 供 样本 类 别 ,还 要 给 出 类 别 可 信和 度 的 衡量 方法 以 引 
导 样 本 的 选择 过 程 , 统 计 模糊 、 最 近邻 方法 及 神经 网 络 等 都 可 用 于 此 类 主动 学 习 中 。 基 于 单 
学 习 器 的 采样 方法 存在 几 方 面 理论 上 的 缺陷 ,包括 真实 不 确定 性 的 潜在 估计 及 分 类 器 的 模 
型 偏 置 等 。 

C2) 基于 误差 减少 的 选择 策略 

基于 误差 减少 的 选择 策略 (Error Reduction Sampling,ERS) 认 为 最 优 的 主动 学 习 应 该 
选择 能 够 最 大 限度 地 减少 分 类 器 在 测试 集 上 的 分 类 误差 的 样本 来 进行 标注 ,此 种 方法 属于 
确定 性 抽样 方法 。 这 里 用 X 王 <<Xi,X:，…,Xn。 之 表示 特征 变量 集 ,特征 的 取 值 用 小 写字 母 
Li 表示 , 任 一 未 标注 样本 X= <a) ,zz ，…,zn> 由 各 特征 变量 的 取 值 组 成 ,了 一 {y ye ot se HAR 
表 类 别 变量 ,S 表示 所 选择 的 未 标注 样本 ,R, 代表 分 类 误差 损失 的 减少 ,LL={(xi ,yi1),…， 
(xn，yn)}) 为 带 有 类 别 标签 的 训练 数据 集 ,L* = 二 LUS 代表 新 的 训练 集 ,U 为 整个 样本 数据 
集 , 包 括 已 标注 和 未 标注 样本 ,Ei 为 期 望 误差 ,那么 ,有 


E, = [EvixLCCHL (x) y) lox) dx (6.1) 
xX 


R. = [eux LOCH, x) 9] — Bye (OCB Dy Dpr (6. 2) 


S = s,(U) = arg maxR, (6. 3) 
式 中 , 互 (z) 为 基于 已 标注 样本 集 学 习 得 到 的 分 类 器 ; sr (. ) 为 选择 函数 ; C(. ) 为 误差 损失 
函数 ,C(. ) 一 般 有 两 种 形式 。 
对 数 损失 , 即 
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从 测试 样本 中 选择 出 类 条 件 炉 最 大 和 最 小 的 候选 样本 (MinExample, MaxExample)， 
将 这 两 个 样本 同时 加 入 到 训练 集中 。 类 条 件 炉 最 大 的 样本 的 加 入 ,使 得 分 类 器 能 够 对 具有 
特殊 信息 样本 的 及 早 重 视 ; 而 类 条 件 炉 最 小 的 样本 是 分 类 器 较为 确定 的 样本 ,对 它 的 分 类 
也 更 加 准确 ,从 而 部 分 地 抑制 了 由 于 不 确定 性 样本 的 加 入 而 产生 的 误差 传播 问题 。 

宫 秀 军 使 用 该 选择 策略 对 贝 叶 斯 网 络 参数 进行 学 习 , 应 用 到 文档 分 类 中 ,试验 结果 显示 
这 种 方法 在 处 理 类 别 分 布 均匀 时 ,利用 较 少 带 有 类 别 标注 的 样本 获得 了 与 带 有 大 量 类 别 的 
训练 样本 几乎 相当 的 精度 ,但 在 处 理 类 别 分 布 不 均匀 时 仍然 会 使 选择 的 测试 样本 的 类 别 偏 
向 于 概率 最 大 的 类 别 ,而 降低 了 分 类 精度 。 

(4) 基于 分 类 损失 与 不 确定 性 抽样 相 结合 的 选择 策略 

针对 最 大 最 小 业 的 选择 策略 的 缺陷 , 宫 秀 军 又 提出 了 基于 分 类 损失 与 不 确定 性 抽样 相 
结合 的 选择 方法 。 该 方法 从 测试 样本 中 选择 kh PRK HEA, AMEA maxS ,然后 对 此 
集合 中 每 个 元 素 计算 相对 于 该 集合 的 分 类 损失 和 ,选择 分 类 损失 和 最 小 的 样本 做 标注 并 加 
人 到 训练 样本 集中 。 对 应 于 两 种 分 类 损失 的 计算 ,其 相应 的 计算 公式 如 下 。 

对 数 损失 ,有 

C= ST >) Soo: Gi | zlogpp (i | x) (6, 10) 


x€maxS i 


0-1 损失 ,有 
1 区 
C= Tmas] b3 (1 — max{ pp* Cy; | x)}) (6.11) 


ZE maxS 


这 种 方法 在 类 别 分 布 差别 较 大 时 效果 很 好 ,但 是 在 未 带 类 别 标注 样本 集 非常 大 时 ,该 方 
法 的 计算 复杂 度 是 相当 高 的 。 由 于 方法 (3) 和 方法 (4) 是 基于 池 的 主动 学 习 方 法 ,每 次 选择 
样本 都 需要 检测 整个 数据 集 ,因而 计算 复杂 度 高 ,在 实际 应 用 中 难以 采纳 。 

(5) 基于 委员 会 投票 的 选择 策略 

基于 委员 会 投票 的 选择 (Query-by-Committee，QBC) 也 称 为 多 学 习 器 方法 。 它 并 不 具 
体 地 确定 搜索 空间 的 大 小 ,而 是 首先 根据 假设 空间 的 先 验 分 布 , 对 一 系列 分 类 器 进行 采样 ， 
基于 分 类 器 组 类 别 预 测 不 一 致 的 程度 来 查询 样本 真实 标记 。 这 种 方法 将 使 得 分 类 界面 附近 
的 样本 点 (也 即 最 富 信息 量 的 样本 点 ), 而 不 是 位 于 先 验 概 率 最 高 的 区 域内 样本 点 ,成 为 训练 
样本 的 概率 提高 。Seung 首先 提出 了 一 种 通用 QBC 算法 ,并 在 理论 上 证 明了 随 着 查询 数目 
趋向 于 无 限 ,通过 QBC 算法 获得 的 样本 信息 增益 趋向 于 有 限 值 。Argamon-Engelson(1999) 
在 自然 语言 处 理 中 使 用 了 QBC 的 方法 ,其 实验 证 明 两 个 成 员 的 QBC 的 表现 同 多 个 成 员 的 
QBC 的 表现 相当 ,并 且 更 容易 实现 ,无 需 参 数 调整 及 计算 效率 更 高 ; 同时 证 明基 于 流 的 
QBC 算法 要 好 于 基于 池 的 QBC 算法 。 基 于 流 的 QBC 主动 学 习 算 法 伪 代 码 如 下 : 


Algorithm6.1 The QBC of active learning 
QBC( 


A, // 分 类 算法 

K, // 委 员 会 成 员 数 目 

L, // 少 量 带 有 类 别 标注 的 样本 集 
UL, // 未 带 类 别 标 注 的 候选 样本 集 
[a // 选 择 停止 的 条 件 

0, // 投 票 差 异 程度 的 阅 值 
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While not 5{ 
Train K classifiers {M;: 1<i<K} from L based on A JIA L P23 K 个 分 类 器 
For each x; EUL 
For h=1,.., K 
Compute P(Y|x;,M,) /基于 M, 对 x; 进行 分 类 预测 , 给 出 类 标注 Y 的 分 布 
End For 
Compute D(x;) // 计 算 D(x) 度量 委 员 会 投票 差异 程度 


. OONDUOF WN eH WY 


If D(x) > 6 
Select x;from UL to user for labeling // 从 UL 中 选择 x;, 交 给 用 户 去 标注 
0 Get the true label y; of x; and add (x;, yi) into L 
// 获 得 x; 的 真实 类 别 , 并 将 其 加 入 到 工 中 
11 End for 
12 Train classifier M from L // 从 工 中 训练 分 类 器 M 
13 Test M on test data and get its accuracy // 测试 分 类 器 M, 得 到 它 的 分 类 精度 
14 } 
15 Return M 


QBC 选择 策略 是 基于 如 何 减 小 版 本 空间 (Version Space) ,这 种 策略 计算 起 来 比较 简单 
〈 当 评价 每 个 未 标注 样本 时 ,只 需要 一 次 内 积 运算 ), 同 时 该 算法 倾向 于 选择 的 样本 数据 能 够 
把 变形 空间 分 成 两 个 大 小 近似 的 部 分 ,这 样 的 样本 被 加 入 到 训练 集 以 后 ,其 中 一 个 部 分 被 从 
整个 变形 空间 中 除去 ,最 大 可 能 的 减 小 变形 空间 的 期 望 面积 ,加 快 了 学 习 的 过 程 。 

对 于 分 类 器 组 的 设计 ,Abe 等 使 用 Bagging 方法 ,将 可 得 训练 数据 集 作 不 同 划分 ,然后 
根据 所 划分 的 不 同 数据 子 集训 练 得 到 一 组 分 类 器 ; McCallum 等 使 用 EM 算法 来 构建 委员 
会 成 员 。 

对 于 委员 会 投票 差异 的 度量 方法 目前 有 两 种 , 即 基 于 相对 炉 的 度量 和 基于 投票 炉 的 度 
量 ,两 种 方法 都 存在 一 定 的 缺陷 ,导致 分 类 器 的 分 类 精度 达 不 到 与 被 动 学 习 相 同 的 精度 ; 并 
且 对 于 带 有 了 噪声 的 训练 样本 集 , QBC 方法 同 不 确定 抽样 学 习 一 样 ,学 习 器 容易 受到 孤立 点 
(奇异 样本 ) 的 影响 ,方法 鲁 棒 性 较 低 。 

通过 以 上 对 各 主动 学 习 选 择 策略 的 介绍 和 相互 对 比 可 以 看 出 ,基于 误差 减少 选择 的 主 
动 学 习 方 法 ,虽然 学 习 精 度 高 ,但 是 其 计算 复杂 ,不 适合 在 大 数据 集 下 贝 叶 斯 网 络 的 学 习 。 
而 委员 会 投票 选择 的 主动 学 习 方 法 计算 复杂 度 低 , 并 且 贝 叶 斯 网 络 对 未 标注 样本 能 够 给 出 
属于 各 种 假设 的 后 验 概率 ,并 据 此 可 直接 度量 出 样本 类 别 的 模糊 性 ,为 委员 会 投票 选择 样本 
提供 了 一 种 量化 的 度量 标准 ,因此 ,QBC 主动 学 习 方法 更 适 于 在 大 数据 集 下 的 贝 叶 斯 网 络 
分 类 器 建 模 。 

为 了 提高 基于 QBC 主动 学 习 的 贝 叶 斯 网 络 分 类 器 的 效率 和 性 能 ,6. 2. 2 节 介绍 了 作者 
对 QBC 主动 学 习 方法 的 两 种 改进 策略 和 基于 这 两 种 选择 策略 构建 贝 叶 斯 网 络 分 类 器 的 算 
法 分 析 与 实验 。 


6.2.2 基于 主动 学 习 的 贝 叶 斯 网 络 分 类 器 学 习 算法 
1. AFREMSAEH SERA MASH QBC 贝 叶 斯 网 络 学 习 算 法 


(1) 算法 原理 
目前 ,已 有 的 QBC 主动 学 习 算 法 中 ,度量 委员 会 投票 差异 (DCx,)) 有 两 种 方法 。 其 中 
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McCallum 和 Nigam #) H F 49 48 Xf 49 (Kullback-Leibler divergence to the mean, KL-dm) 
度量 委员 会 成 员 投票 差异 ,计算 公式 为 


D(x) = KP Pa |x) || Poe Y | x.) (6.12) 
式 中 ,pve(Y|xi) 为 所 有 委员 会 成 员 类 条 件 概率 的 平均 值 ,有 
Poe (Y | x) = (>) on CY | x))/K (6. 13) 
DC || + ) 是 两 个 条 件 概率 分 布 的 信 A — re 其 计算 公式 为 
Pi (x; ) 
D(p: (Y) || ps(Y)) = Dn los (Fa o +) (6. 14) 


FART HRA , HHA a Se A 的 投票 差异 就 越 大 。 

Argamon-Engelson 使 用 了 另 一 种 度量 方法 一 一 投票 炉 (Vote Entropy, VE) ,度量 投票 
的 不 一 臻 性。 投票 粹 越 大 ,说 明 委 员 会 成 员 的 投票 差异 越 大 。 
mE ee 
式 中 ,VC(y,x;) 为 委员 会 成 员 对 样本 x; 的 类 别 y 投票 的 数目 。 

表 6. 1 和 表 6. 2 说 明了 两 种 度量 方法 对 样本 的 评价 结果 。 其 中 委员 会 成 员 2 个 ,样本 
数据 3 个 , 两 类 分 问题 。 表 6. 1 中 的 数据 为 委员 会 成 员 对 样本 的 类 投票 结果 , 表 6. 2 是 每 
AY FE AS AE Be BE HG A EE. AE 6. 2 中 可 以 看 到 ,x! 和 xs 的 KL-dm 值 较 接 
近 , 但 是 x 的 VE 值 为 1,KL-dm 度量 方法 漏 选 了 像 z, 这 样 委员 会 成 员 类 投票 不 一 致 的 样 
本 ,这 样 的 样本 正 是 QBC 算法 原理 所 要 选择 的 例子 。 


表 6.1 委员 会 成 员 对 样本 的 类 投票 结果 


模型 x xX: Xs 
1 0. 52(y1) 0.72(y2) 0.60(yz ) 
2 0. 58Cy2) 0. 60C yy.) 0. 70C y2 ) 


DC) 一 一 (6.15) 


R62 EREE HI H R a A 
示例 VE KL-dm 
XI 1 0. 005( miss) 
Xe 1 0.052 
Xz 0 0. 006 





然而 利用 投票 炉 来 度量 委员 会 成 员 的 投票 不 一 致 性 , 它 虽 然 选 择 了 投票 不 一 致 的 例子 ， 
但 是 并 未 考虑 成 员 对 样本 的 类 条 件 概率 值 p,(y; |x;), 即 没有 考虑 分 类 器 成 员 对 样本 预测 
的 类 别 可 信和 度 , 故 不 能 全 面 衡量 样本 所 含 信息 量 , 这 同样 会 导致 漏 选 一 些 信 息 量 丰富 的 样本 
数据 。 

下 面 给 出 定理 6. 1, 并 证 明基 于 投票 焙 的 QBC 算法 漏 选 了 投票 一 致 且 具有 分 类 不 确定 
性 高 的 样本 。 

定理 6.1 设 委员 会 成 员 数 目 4 一 2, 投 票 DCxr)E[L0 0.5 1], 其 中 DCxr) 一 1 HK 
票 不 一 致 ,DCx) 一 0. 5 为 一 个 投票 另 一 个 弃权 ,DCx) 王 0 为 投票 一 致 ,委员 会 对 样本 的 分 类 
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不 确定 性 为 Ucw (x) » WU SEF BE) QBC 主动 学 习 方 法 漏 选 的 样本 为 xmisE {x | D(X) = 
O, UC max (xX) >a} HP a H Uc max (x) 的 阅 值 。 

证 明 : 假设 用 函数 Uc,, (x) 度 量 委员 会 成 员 m 对 样本 x; 分 类 的 不 确定 性 ， 设 样本 x 的 
类 别 属性 值 为 N 个 ,成 员 m 对 样本 预测 的 类 条 件 后 验 概 率 分 布 为 上 CY |X) = Chm Cn | x)» 
Pma (2 |X) sts Pm 《yn|x)), 很 明显 ,如 果 概 率 分 布 为 均匀 分 布 时 ,成 员 m 对 样本 的 分 类 不 
确定 性 Ucn (x) 达 到 最 大 , 取 成 员 中 Uc, (x) 的 最 大 值 记 为 Ucmx (x) KE 

因此 ,根据 投票 焙 的 定义 式 公 式 (6. 15) ,不 失 一 般 性 ,有 以 下 7 种 情况 : 

D WR pup s pu>> p27 >A iAl, W) D(x) 二 1,Ucwsx (xX) 二 a。 


© 如 果 bur i> pir spa > prt , 且 1 天 2 MI) D(x) =1,UC mx (x) >a. 


O 如 果 pu ALD prt pum poi H AL, D(x) =1 Uc (x) >a. 
© mR Pur > pir sba > pot » H i=l, WW D(x) =0,UC max (x) Xan 
© 如 果 pux i> pi ba >> p:7 A i=l, W] D(x)=0,Ucw (x) >a. 


© 如 果 puxi pi 1 bu R> pri „H i=l, DCx)=0,Ucw (x) >a, 


D mR Pu= Ts Pu > pT , 则 D(x) =0. 5,Uc mx (xX)>a. 


其 中 ,满足 情况 四 .@ OA OM FA AB AE FR QBC 算法 选择 参与 分 类 器 的 学 
习 ,而 满足 情况 @@ 和 人 @ 的 样本 却 被 排除 在 选择 之 外 。 

由 于 Lewis 和 Gale 在 基于 不 确定 性 抽样 选择 的 主动 学 习 研 究 中 指出 ,被 分 类 器 分 类 不 
确定 的 样本 所 含 的 信息 量 是 丰富 的 ,有 利于 分 类 器 的 构建 ,应 当 被 选 人 训练 集中 。 所 以 , 满 
足 情 况 @@ 和 @ 的 样本 因为 具有 较 高 的 分 类 不 确定 性 ,应 该 被 选择 进行 真实 标注 并 加 入 到 训 
练 集 中 。 

由 此 得 出 ,基于 投票 焙 的 QBC 主动 学 习 方 法 漏 选 的 样本 为 xwis E (x | D Cx) = 0 , Uc max 
(x) >a}. 

下 面 通过 一 个 小 的 实验 ,举例 证 实 了 定理 6. 1 的 内 容 。 

由 于 信息 粹 是 信息 论 中 描述 事物 不 确定 性 的 一 个 基本 概念 ,因此 ,这 里 引入 信息 粹 度量 
委员 会 成 员 对 样本 x; 分 类 的 不 确定 性 。 其 定义 如 下 : 

定义 6.1"" 设 随机 变量 z 是 离散 的 , 它 取 yi ,ys，… ,yi，… 至 多 可 列 |Y| 个 值 , 则 


IY] 
H(Y | x) =— DPO: | zx)log(CpCy | x)) (6.16) 
RA z HREM. 
可 以 证 明 , PEDLER BEOL m E fe BRK RAY EEL E R EL 
向 量 ) 为 均匀 分 布 。 


在 这 里 用 信息 炉 H, (Y|x) 度 量 了 委员 会 成 员 m 对 样本 分 类 的 不 确定 性 程度 , 取 成 员 
中 的 最 大 值 记 为 样本 的 类 条 件 后 验 最 大 炉 (x) 的 值 , 即 


ta? = maxH, (Y | x) (6.17) 
式 中 ,K 为 委员 会 成 员 的 数目 。 


6.2 主动 学 习 方 法 71 





假设 有 2 个 委员 会 成 员 , 对 4 个 未 带 类 标注 的 样本 xi,… ,xs 进行 预测 ,预测 的 类 别 有 
两 个 , 即 YS {y »y2) 

利用 投票 精度 量 委员 会 对 样本 类 投票 的 不 RHE D(x;)， 同时 用 类 条 件 后 验 最 大业 
H max (x) 度量 成 员 对 样本 的 分 类 不 确定 性 。 

表 6. 3 中 的 数据 为 委员 会 成 员 对 样本 的 类 投票 结果 , 表 6. 4 是 每 个 样本 的 类 投票 焙 和 
类 条 件 后 验 最 大 焙 的 比较 。 从 表 6. 4 中 可 以 看 到 ,x 和 xs HRM R A 0G), ,但 
是 前 者 的 Hae (x;) 值 与 xz 的 互 。(Cxi) 值 相当 , 即 委员 会 中 有 对 xi 的 分 类 不 确定 性 程度 相当 
高 的 成 员 。 但 是 ,基于 投票 焙 的 QBC 算法 漏 选 了 这 样 的 样本 数据 。 


表 6.3 委员 会 成 员 对 样本 的 类 投票 结果 


模型 Xl X2 X3 X4 
1 0.55(y1) 0. 55(y2) 0.72(y1) 0. 75Cy2) 
2 0. 60(y1) 0.55(y1) 0. 85(yz) 0. 90(y2) 


表 6.4 每 个 样本 的 类 投票 暗 和 类 条 件 后 验 最 大 炳 


示例 D(x) H max (Xi) 
x) 0. OC miss) 0. 6881 
Xz 1.0 0. 6881 
Xs 1.0 0.5930 
Xa 0.0 0. 5623 





该 实验 也 说 明了 ET BY) QBC 算法 漏 选 了 投票 一 致 且 具有 分 类 不 确定 性 高 的 样 
本 ,这 样 的 样本 也 具有 丰富 的 信息 量 , 有 助 于 分 类 器 性 能 的 提高 。 

同时 ,QBC 同 不 确定 抽样 学 习 一 样 ,学 习 器 容易 受到 孤立 点 的 影响 ,由 于 孤立 点 有 较 高 
的 分 类 不 确定 性 ,因而 易于 被 选择 。 如 果 学 习 器 选择 了 孤立 点 ,那么 在 接 下 来 的 参数 调整 过 
程 中 ,当前 分 类 器 对 它 的 分 类 误差 也 就 越 大 , 随 着 学 习 过 程 的 进行 ,误差 会 继续 传播 下 去 , 影 
响 分 类 的 性 能 。 

而 在 主动 学 习 过 程 中 ,如 果 选 择 当前 假设 对 其 标记 比较 确信 的 样本 , 则 该 样本 标记 不 能 
提供 较 多 有 用 信息 ,不 能 较 多 改变 当前 假设 ,但 该 操作 可 提高 分 类 器 鲁 棒 性 。 如 果 选 择 标记 
不 能 确定 的 样本 ,给 定 当 前 假设 ,该 选择 导致 学 习 过 程 在 两 个 或 多 个 不 同 假设 之 间 进 行 反 复 
测试 ,可 能 会 显著 地 改变 当前 假设 ,也 可 能 会 导致 错误 的 更 新 ,但 该 操作 会 提供 更 多 有 用 信 
息 ,选择 样本 时 应 考虑 两 方面 作用 的 平衡 "" 。 

FET PLEA QBC 算法 ,只 度量 分 类 器 组 对 样本 的 投票 不 一 致 程度 ,选择 当前 假设 分 
类 最 不 确定 的 样本 参与 训练 ,会 存在 错误 的 更 新 , 即 受 奇异 样本 的 影响 ,因此 应 考虑 适当 选 
择 确 定性 的 样本 ,提高 算法 的 鲁 棒 性 。 而 该 算法 漏 选 的 样本 正 是 一 些 当 前 假设 对 其 标记 比 
较 确 信 但 却 在 微观 层面 上 又 相对 不 确定 的 样本 ,这 些 样 本 符合 了 确定 性 与 不 确定 性 相互 平 
衡 的 要 求 。 

因此 BAS RE a KG AE A. — PPT QBC 算法 由 本 书 提出 来 ,其 中 算法 既 
度量 委员 会 投票 的 不 一 致 性 ,又 对 投票 一 致 的 样本 进一步 度量 选择 。 选 择 投票 不 一 致 的 样 
本 ,会 提供 更 多 有 用 信息 ,而 选择 相对 确信 中 富 信息 量 的 样本 ,其 既 可 以 提高 分 类 器 鲁 棒 性 
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又 提供 了 较 多 的 分 类 信息 ,因此 新 算法 选择 样本 时 考虑 了 两 方面 作用 的 平衡 。 该 算法 中 分 
类 算法 使 用 贝 叶 斯 网 络 , 算 法 伪 代 码 如 下 : 





Algorithm6.2 The QBC based on vote entropy and maximum entropy 

QBC-VEME( 

// 分 类 算法 

// 委 员 会 成 员 数 目 

// 少 量 带 有 类 别 标 注 的 样本 集 
// 未 带 类 别 标 注 的 候选 样本 集 
// 选 择 停止 的 条 件 

// BFA BY BA 

// Be BA 


VP Pos eee 


1 While not ¢{ 
2 Train K classifiers {M;:1<i<K} from L based on A //M L 中 学 习 KK 个 分 类 器 
3 For each x; EU 


4 For h=1,.., K 
5 Compute P(Y|x;,M,) // 基 于 M, 对 xi; 进行 分 类 预测 , 给 出 类 标注 Y 的 分 布 
6 End For 
7 Compute D(x;)with equation(6.15)// 使 用 公式 (6.15) 计 算 D(z;) ,度量 委员 会 投票 差异 程度 
8 If D(x) > @ 
9 Select x; from U to user for labeling // 从 UU 中 选择 x;, 交 给 用 户 去 标注 
10 Get the true label y; of x; and add (xi yi) into L 
// 获 得 x; 的 真实 类 别 , 并 将 其 加 入 到 工 中 
11 Else 
12 Compute 五 。 (xi) with equation(6.16) and (6.17) 
13 Tf Hwa (xi) > a 
14 Select x; from U to user for labeling // 从 U 中 选择 x;, 交 给 用 户 去 标注 
15 Get the true label y; of x; and add (xi y;) into L 
// 获 得 x; 的 真实 类 别 , 并 将 其 加 入 到 工 中 
16 End if 
17 End for 
18 Train classifier M from L // 从 工 中 训练 分 类 器 M 
19 Test M on test data and get its accuracy // 测试 分 类 器 M, 得 到 它 的 分 类 精度 
20 } 
21 Return M 


(2) 计算 复杂 度 分 析 

下 面 对 基 于 误差 减少 选择 的 主动 学 习 方 法 、 基 于 投票 粹 的 QBC 主动 学 习 方法 和 基于 投 
票 粮 与 类 条 件 后 验 最 大 粹 相 结 合 的 QBC 主动 学 习 方 法 进行 计算 复杂 度 的 比较 。 

假设 一 次 内 积 计算 的 时 间 为 工 ( 约 为 10ps) ,训练 贝 叶 斯 网 络 分 类 器 的 时 间 为 T., RER 
注 样本 集 包含 n 条 数据 样本 ,类 别 属性 值 为 n, ,那么 基于 误差 损失 选择 的 主动 学 习 方 法 计 
算 一 次 迭代 的 最 长 时 间 为 Tegs， 它 等 于 ?个 未 标注 样本 分 别 具 有 n, 个 可 能 的 类 标签 后 加 
入 训练 集训 练 分 类 器 的 时 间 ,计算 分 类 损失 的 时 间 TR, ,选取 分 类 误差 最 小 的 未 标注 样本 获 
得 真实 类 标签 后 训练 分 类 器 的 时 间 以 及 在 测试 集 上 计算 的 时 间 Te. 的 总 和 ，, 即 

Ters = nLn, (T. + TR, YI AT. + Tes (6. 18) 
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因为 ,通常 n 趋向 于 很 大 ,所 以 式 (6. 18) 可 写 为 
Ters ~ [n(n,(T. + TR.)] (6. 19) 
同时 ,T.s*3. 410T, TR 206. 290T, 则 
Ters ~ 210+ n+ n,T (6. 20) 
MATRA QBC 主动 学 习 方 法 计算 一 次 迭代 的 最 长 时 间 为 Tre, EFT kD% 
器 训练 的 时 间 ,计算 投票 差异 的 时 间 To ,选择 投票 不 一 致 的 未 标注 样本 加 入 训练 集 重新 训 
练 分 类 器 的 时 间 以 及 在 测试 集 上 计算 的 时 间 的 总 和 , 即 
Twe = k © Te + Tp + T: + Ten (6. 21) 
式 中 ,为 委员 会 的 成 员 数 ,其 值 为 2.3; Tol. 2T; Tun~54. 68T. 
_ Tvs ~ 70T (6. 22) 
EF REMSKAGRRRAMAASH QBC 主动 学 习 方 法 计算 一 次 迭代 的 最 长 时 
HWA Tvegn,.， 它 等 于 个 分 类 器 训练 的 时 间 , 计 算 投 票 差 异 的 时 间 To, 计算 H max AI HNE , 
选择 互 。. 大 于 某 一 阔 值 的 未 标注 样本 加 入 训练 集 重新 训练 分 类 器 的 时 间 以 及 在 测试 集 上 
计算 的 时 间 的 总 和 , 即 
Tveen,,, = k e Te + To + TH + Te + Tres (6. 23) 
其 中 , 取 k=3; Tm 3T. 
Tveam ~ 3T+ Tw = 73T (6. 24) 
因此 ,Tve<Tvesam n C< Tes ,所 以 ,提出 的 新 算法 的 计算 复杂 度 要 远 小 于 基于 误差 减 
少 选择 的 主动 学 习 方法 ,实际 应 用 是 可 行 的 。 
另外 ,为 了 进一步 再 减少 计算 复杂 度 , 还 可 以 采取 一 些 其 他 处 理 方法 。 例 如 ,对 未 标注 
样本 池 进 行 抽样 和 聚 类 ,以 便 只 有 类 种 子 样本 才 考虑 是 否 标注 ; 也 可 以 在 每 次 增加 新 样本 
数据 后 ,采用 贝 叶 斯 网 络 的 增 量 学 习 方 法 ,而 不 必 从 头 开 始 训练 贝 叶 斯 网 络 。 贝 叶 斯 网 络 的 
增 量 学 习 将 在 6. 3 节 中 介绍 。 
(3) 实验 结果 和 分 析 
实验 使 用 UCI 机 器 学 习 数 据 库 中 tic-tac-toe AGE Xt Jk F A HA QBC AMIE FRE 
与 类 条 件 后 验 最 大 暗 相 结合 的 QBC 及 被 动 学 习 进 行 了 结果 比较 ,分 类 算法 使 用 TAN 分 类 
器 ,委员 会 成 员 为 2 个 。 
tic-tac-toe 数据 共有 958 条 记录 ,有 2 个 类 别 分 类 ,其 中 positive 类 占 66.3%, negative 
类 占 34.7% 。 数 据 集 被 分 成 3 个 部 分 ,其 中 随机 抽取 59 条 记录 作为 初始 分 类 器 的 训练 数 
据 ,299 条 记录 作为 测试 数据 , 剩 下 的 600 条 记录 被 看 作 未 带 类 别 标记 的 样本 。 委 员 会 成 员 
it BAL Fh RI A HE ( Bagging) Æx PA SAR ERE. BOR AY BA 00. 5, H ma (x;) 
W BALE 2 >0. 6730(a=0. 6730 是 类 条 件 概率 分 布 为 p(z=a) =0. 4, p(r=b) =0. 6) ,选择 停 
止 的 条 件 “为 分 类 准确 性 不 小 于 85% 或 者 搜索 完 所 有 的 未 带 类 别 标注 的 样本 集 。 
图 6.5 所 示 为 该 组 数据 的 结果 图 。 从 图 中 可 以 看 到 ,基于 投票 焙 的 QBC 方法 (VE) 选 
择 停止 后 ,总 共 选 择 了 163 条 未 带 类 别 标注 的 样本 ,在 选择 了 138 条 未 带 类 别 标注 的 样本 数 
据 时 ,分 类 预测 准确 率 达到 了 其 最 高 值 79%; 基于 投票 炉 与 类 条 件 后 验 最 大 炉 相 结合 
QBC 方法 (VE& 日。 ) 选 择 停止 后 ,总 共 选 择 了 183 个 未 带 类 别 标注 的 样本 ,在 选择 了 176 
条 未 带 类 别 标注 的 样本 数据 时 ,分 类 预测 准确 率 达 到 了 其 最 高 值 83%。 被 动 学 习 使 用 了 除 
测试 数据 以 外 的 659 条 记录 作为 训练 数据 ,分 类 准确 率 为 81%( 表 6. 5)。 
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6.5 tic-tac-toe 数据 3 种 学 习 方法 分 类 准确 率 曲线 
实验 结果 显示 ,基于 投票 业 与 类 条 件 后 验 最 大 炉 相 结 合 的 QBC 方法 能 够 达到 比 基 于 投 
票 焙 的 QBC 更 高 的 分 类 准确 性 ,新 加 入 的 少量 样本 是 含 信息 量 丰 富 且 相对 确定 的 样本 ,有 
利于 分 类 器 性 能 的 提高 ,减少 了 奇异 样本 的 加 入 而 增 大 的 分 类 误差 ,并 且 算 法 使 用 了 较 少 的 
训练 数据 来 建立 分 类 模型 ,减少 了 标注 样本 所 付出 的 代价 。 


表 6.5 3 种 学 习 方法 的 比较 





学 习 方 法 tic-tac-toe 

VE 163(79%) 
VE& H max 183(83%) 
被 动 学 习 659(81%) 


(HE RMB SHRAS PEARS DAK, CM 5 AA WR eh EE 
分 类 不 确定 性 ,但 对 于 多 类 分 问题 ,并 不 利于 对 样本 分 类 不 确定 性 的 度量 。 而 相对 炉 是 度量 
某 概率 分 布 密度 偏离 给 定 标 准 分 布 的 程度 , 它 有 利于 多 类 分 概率 分 布 密度 与 分 类 最 不 确定 
的 概率 分 布 相 近 程 度 的 比较 ,相对 暗 越 小 表示 两 个 分 布 的 符合 程度 越 好 ,成员 对 样本 的 分 类 
越 不 确定 。 
例如 ,3 类 分 问题 中 , 见 表 6. 6,xs WRF x, ,但 x 的 分 类 不 确定 性 要 高 于 x 。 而 
x, 的 相对 焙 值 低 于 六 ,说 明了 它 的 分 类 不 确定 程度 高 于 za 。 
表 6.6 ARMANI 
示例 pn Cy; |i) ii HBL A C 15 5) a OE ABE ON HC BED 
xi (0. 6,0. 2,0. 2) 0. 9503 0. 1484 


Xp (0. 4,0. 3,0. 3) 1. 0889 l 0. 0098 
x (0. 55,0. 45,0) 0. 6881 0. 005 
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2. AFRESH gh AAA QBC 贝 叶 斯 网 络 学 习 算 法 


(1 ) 算法 原理 
74 FE [Bl AB Xt HH (Kullback-Leibler divergence,KL-d) 的 一 般 定 义 。 


定义 6.2 AMHR RBRE 
Min:D(A || B) = Dialog 5* | (6. 25) 
式 中 ,A 一 (ai 9Qz CQ B= (bi 902 0 ai 之 0; b; => 0,a; 与 b;(i = 1,2,.… ,7n) 是 两 
个 概率 测度 , 且 >)a 一 1, Jb =1; D(A || B) = Dyailog F* 宇 0 为 A 相对 于 B 的 相对 
i=l i=l i=l i 


WDA || B) 越 小 表示 A 与 B 的 符合 程度 (一 致 性 ) 越 好 。 

在 此 考虑 每 个 成 员 对 样本 分 类 的 概率 分 布 密度 p,,(Y|x;) ,重新 定义 相对 焙 中 的 变量 
含义 。 

定义 6.3 FEMRTHEATR C6. 25) 中 ,让 A 代表 p，(Y|x;),B 代表 均匀 分 布 时 的 概率 分 
H P move Y lx) ,计算 得 到 每 个 分 类 器 对 样本 的 相对 焙 , 取 其 中 最 小 值 ,得 到 该 样本 在 分 类 
器 组 中 分 类 的 最 大 不 确定 度 iW DAT KL-dmin (x) ,其 计算 公式 为 

K Bd 
KL-dmin (x;) = Min( >) Pa Cy, | xdlog( p2 )) (6. 26) 


ly] 2,Max(P,, Cy; |x;))=1 
式 中 , Prove (Y | xi ) = (È Pat) | x0) /tst=4 ; 
j=1 (|Y| 一 num_zero) ,Max(P,, (y; lx:))Æ1 


num_zero 为 P,(Y|xi) 为 0 的 数目 。 

用 相对 炳 度量 样本 类 条 件 概 率 分 布 与 分 类 最 不 确定 时 的 概率 分 布 的 相近 程度 ,计算 所 
得 相对 业 越 小 ,类 条 件 概率 分 布 与 分 类 最 不 确定 的 概率 分 布 越 相近 ,样本 分 类 不 确定 程度 越 
高 ,最 小 相对 粹 体现 了 委员 会 成 员 对 样本 分 类 最 大 不 确定 程度 。 

现在 使 用 表 6. 7 所 示 的 委员 会 对 样本 的 投票 结果 (假设 有 2 个 委员 会 成 员 , 对 3 个 未 带 
类 标注 的 样本 进行 预测 ,预测 的 类 别 有 4 个 ) ,用 投票 炉 度量 委员 会 成 员 投票 不 一 致 性 ,用 最 
AN HEX Hi SE E FE AS BY OP SAR EE 以便 分 析 基 于 投票 焙 的 QBC 方法 可 能 导致 漏 选 的 
样本 。 

K 6. 8 FEET AEA HAE BR ER HG FA Be) HT EE, WE. 8 中 可 以 看 到 ,x， 和 xs 的 
投票 焙 都 为 0, 但 是 前 者 的 KL-dwin (x;) 值 很 接近 于 0, 即 委员 会 中 有 对 xi 的 分 类 不 确定 性 程 
度 相 当 高 的 成 员 ,应 当 被 选 和 人 训练 数据 集中 参与 分 类 器 的 学 习 。 

Fel] SB SR 5S ARE Js Re KAA QBC BRAS , SEF BR A Be) A 
的 QBC 算法 对 投票 一 致 的 样本 进一步 选择 ,如果 样 本 的 KL-dun(x) 满 足 某 阔 值 条 件 ,选择 
该 样本 加 入 训练 数据 集中 。 


表 6.7 委员 会 成 员 对 样本 的 类 投票 结果 


模型 Xl X2 x3 
1 (0. 4,0. 3,0. 2,0. 1) (1) (0. 15,0. 45,0. 3,0. 1) (y2) (0. 1,0,0. 8,0. 1) Cy3) 
2 (0. 55,0. 45,0,0) (yı) (0. 75,0.1,0.1,0. 05) Cy) (C0. 1,0,0. 9,0) Cys) 


76 第 6 章 概率 图 模型 的 新 型 学 习 方法 


表 6.8 每 个 样本 的 类 投票 炉 和 最 小 相对 蚁 


示例 VE K L-dmin (x;) 
x, 0. OC miss) 0. 005 
Xz 1.0 0. 1509 
X; 0.0 0. 3681 


FEF BRR HB Al hR QBC 算法 如 下 : 


Algorithm6.3 The QBC based on vote entropy and minimum KL-d 


QBC-VEKL( 
A, // 分 类 算法 
K, // 委 员 会 成 员 数 目 
L, // 少 量 带 有 类 别 标注 的 样本 集 
U, // 未 带 类 别 标注 的 候选 样本 集 
t, // 选 择 停止 的 条 件 
0, // 3% A AY BE 
a, // S\N RA XT HS RL 
) 
1 While not ¢{ 
2 Train K classifiers {M;:1<i<K}) from L based on A //M L pJ K 个 分 类 器 
3 For each x; EU 
4 For h=1,..., K 
5 Compute P(Y|x;,M,) // 基 于 M, 对 x; 进行 分 类 预测 , 给 出 类 标注 Y 的 分 布 
6 End For 
7 Compute D(x;)with equation(6.15) ”// 使 用 公式 (6.15) 计 算 D(x;), 度量 委员 会 投票 差异 程度 
8 If D(x;)> 0 
9 Select x; from U to user for labeling // U 中 选择 x;, 交 给 用 户 去 标注 
10 Get the true label y; of x; and add (x;, y;) into L// 获 得 x; 的 真实 类 别 , 并 将 其 加 入 到 工 中 
11 Else 
12 Compute KL-dyin (x; ) with equation(6. 26) 
13 If KL-dmin (x; ) satisfy with a //KL-dmin (x: 388 E a 条件 
14 Select x; from U to user for labeling // 从 U 中 选择 x;, 交 给 用 户 去 标注 
15 Get the true label y; of x; and add (xi y;) into L 
// 获 得 x; 的 真实 类 别 , 并 将 其 加 入 到 工 中 
16 End if 
17 End for 
18 Train classifier M from L // 从 工 中 训练 分 类 器 M 
19 Test M on test data and get its accuracy // 测试 分 类 器 M, 得 到 它 的 分 类 精度 
20 } 
21 Return M 





(2) 实验 结果 和 分 析 

实验 使 用 UCI 机 器 学 习 数 据 库 中 Nursery database 和 tic-tac-toe Endgame database 的 
GE Xt EF SUE QBC MEF RAS BAM AAA H QBC, 及 被 动 学 习 进行 了 
结果 比较 。 

实验 从 Nursery database 中 随机 抽取 了 4171 条 数据 记录 ,并 把 数据 分 成 3 个 部 分 ,其 
中 929 条 记录 作为 初始 分 类 器 的 训练 数据 ,1001 条 记录 作为 测试 数据 , 剩 下 的 2241 条 记录 
被 看 作 未 带 类 别 标记 的 样本 。 整 个 数据 集 有 5 个 类 别 分 类 ,其 类 分 布 如 表 6. 9 所 示 。 
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tic-tac-toe 数据 共有 958 条 记录 ,有 2 个 类 别 分 类 ,其 中 65% 为 类 别 是 Positive,35% 为 
negative。 把 数据 分 成 3 个 部 分 ,其 中 随机 抽取 59 条 记录 作为 初始 分 类 器 的 训练 数据 ,299 
条 记录 作为 测试 数据 , 剩 下 的 600 条 记录 被 看 作 未 带 类 别 标记 的 样本 。 


表 6.9 Nursery database 的 类 分 布 








类 N N/% 
Not recom 1371 32.9 
Recommend 1 0.02 
Very recom 112 2. 68 
Priority 1391 33. 35 
Spec_prior 1296 31.05 


委员 会 成 员 为 2 个 ,分 类 算法 采用 TAN 贝 叶 斯 网 络 分 类 器 。 

图 6. 6 所 示 为 3 种 学 习 方法 对 Nursery database 数据 的 分 类 准确 率 比 较 , 表 6. 10 所 示 
为 结果 对 比 。 很 明显 ,基于 投票 炉 的 QBC 方法 (VE) 选 择 了 128 条 未 带 类 别 标记 的 样本 后 
准确 率 达 到 了 91%; VE&KL-dws 在 选择 了 264 条 后 ,准确 率 为 93%; 被 动 学 习 使 用 了 所 
有 的 训练 数据 ,准确 率 为 93% 。 


Nursery database 


0.94 


0.93 


0.92 


0.9 ETI 





0 500 1000 1500 2000 2500 
训练 数据 


6.6 Nursery database 数据 分 类 准确 率 曲 线 比 较 
(其 中 020. 5,a>— 0. 0031 和 a<0. 05. ¢25>95%) 


326.10 Nursery database 3 种 学 习 方 法 的 比较 





.学 习 方 法 Nursery database 
VE 128(91%) 
VE&.KL-dnin 264(93%) 


被 动 学 习 2241(93%) 
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THAEBRRA MSRM FRE SR) MM MAAAH QBC 方法 能 够 达 
A FRE QBC 更 高 的 分 类 准确 性 ,新 加 入 的 少量 样本 是 含 信息 量 丰富 且 相 对 确定 
的 样本 ,有 利于 分 类 器 性 能 的 提高 ,减少 了 奇异 样本 的 加 入 而 增 大 的 分 类 误差 ,并 且 算 法 使 
用 了 较 少 的 训练 数据 来 建立 分 类 模型 ,减少 了 标注 样本 所 付出 的 代价 。 

图 6.7 所 示 为 4 种 学 习 方 法 (VE、VE&KL-dms、VE& Hx 和 被 动 学 习 ) 对 tic-tac-toe 数 
据 的 分 类 准确 率 比较 ,从 图 中 可 以 看 到 ,对 于 两 类 分 问题 ,如 果 类 分 布 比 例 较 小 , 则 
VE&KL-dmis 方 法 分 类 表现 不 如 VES H max o 


tic-tac-toe 





“0 100 200 300 400 500 600 700 
训练 数据 

6.7 4 种 学 习 方 法 (VE、VE&KL-dmin、VE&& Hn 和 被 动 学 习 ) 

对 tic-tac-toe 数据 的 分 类 准确 率 比 较 


通过 UCT 标准 数据 库 的 实验 ,结果 表明 ,基于 这 两 种 新 算法 的 主动 贝 叶 斯 网 络 分 类 器 
取得 了 与 被 动 学 习 的 贝 叶 斯 分 类 器 相同 的 分 类 精度 ,但 是 使 用 的 训练 数据 远 远 少 于 被 动 学 
习 。 这 无 疑 有 效 解 决 了 大 数据 量 训练 样本 获得 困难 情况 下 分 类 器 建 模 困 难 和 分 类 准确 率 不 
高 的 问题 。 


6.2.3 基于 半 监 督 主动 学 习 的 动态 贝 叶 斯 网 络 学 习 方 法 


动态 贝 叶 斯 网 络 是 对 具有 随机 过 程 性 质 的 不 确定 问题 进行 建 模 和 处 理 的 一 个 有 力 工 
具 , 其 用 途 十 分 广泛 ,如 语音 识别 、 表 情 识 别 、 监 测 高 速 公路 、 客 户 信 用 状态 的 演化 预测 等 。 在 
针对 分 类 任务 的 建 模 时 , 现 有 DBNs 的 学 习 算 法 都 是 基于 大 量 带 有 类 标记 样本 的 监督 学 习 , 所 
Æ DBNs 模型 时 间 序 列 越 长 需要 的 学 习 样 本 也 越 多 。 然 而 ,在 大 多 数 现实 应 用 中 ,学 习 样 本 的 
类 属性 是 需要 人 工 标 注 的 ,对 大 量 的 学 习 样本 作 类 别 标记 是 一 项 枯燥 而 费时 的 工作 。 

虽然 利用 大 量 标 注 过 的 学 习 样 本 可 以 提高 算法 结果 的 准确 度 ,但 是 却 忽 略 了 未 标注 样 
本 的 作用 ,而 有 效 地 利用 未 标注 样本 无 疑 将 在 一 定 程 度 上 提高 学 习 算法 的 性 能 。 半 监督 学 
习 (Semi-Supervised Learning，SSL) 正 是 使 用 了 既 包 括 已 标记 类 别 样 本 又 包括 未 标记 类 别 
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样本 的 学 习 方 法 , 最 经 常用 到 的 半 监 督学 习 算 法 是 EM 算法 。 近 年 来 ,研究 者 们 对 DBNs 
的 半 监 督学 习 算法 表现 出 与 日 俱 增 的 研究 兴趣 ,多 种 基于 EM 算法 的 DBNs 学 习 方法 已 经 
被 提出 ,如 基于 SEM (Structural EM) 算 法 的 DBN 结构 学 习 、 基 于 遗传 算法 和 EM 算法 
(EM-EA) 相 结合 的 DBN 结构 学 习 。 虽 然 半 监督 学 习 算 法 只 使 用 了 少量 的 已 标注 样本 ,但 
其 结果 仍然 不 如 基于 大 数据 量 的 监督 学 习 算 法 。 例 如 ,EM 算法 是 一 种 在 有 缺失 值 的 情况 
下 计算 最 大 似 然 估计 的 迭代 算法 , 它 首先 对 未 标注 样本 进行 软 分 类 ,然后 利用 获得 的 完整 样 
本 集 再 进行 模型 的 学 习 , 显然 未 标注 样本 越 多 ,相应 的 迭代 次 数 也 会 越 多 , 那么 一 旦 在 某 些 
步骤 加 入 了 错误 的 样本 分 类 信息 ,这 类 错误 会 随 着 迭代 次 数 的 增加 而 逐步 的 积累 ， 最 后 必 
然 会 影响 模型 的 准确 性 。 

机 器 学 习 领 域 中 的 主动 学 习 思 想 可 以 用 来 借鉴 到 基于 半 监 督学 习 的 DBNs 中 。 主 动 学 
习 器 可 以 自主 选择 对 学 习 过 程 最 有 价值 的 未 标注 样本 来 请 求 用 户 标 记 , 达 到 以 最 少 的 样本 
尽 最 大 可 能 优化 当前 学 习 器 的 目的 。 目 前 ,多 数 主动 学 习 算法 在 选择 了 所 需 标 记 的 样本 之 
后 ,不 再 对 未 标记 数据 作 进 一 步 利 用 。 而 半 监 督学 习 算 法 则 可 以 在 学 习 过 程 中 利用 所 有 未 
标记 样本 ,将 两 种 方法 进行 融合 将 是 十 分 有 价值 的 探索 。 

根据 样本 选择 策略 的 不 同 , 已 有 的 主动 学 习 算法 可 分 为 3 类 : 一 类 是 选择 使 得 当前 分 
类 器 对 测试 集 分 类 误差 最 小 的 例子 作为 候选 样本 ,如 基于 误差 减少 的 抽样 (Error Reduction 
Sampling, ERS) [%51]; 第 二 类 是 选择 当前 分 类 器 最 不 确定 的 样本 作为 候选 样本 ,如 不 确定 
性 抽样 方法 (Uncertainty Sampling); 第 三 类 是 根据 多 个 分 类 器 对 于 样本 类 别 预测 差异 程 
度 来 选择 候选 样本 ,如 基于 委员 会 投票 选择 方法 (Query-By-Committee,QBC) 。 本 章 分 别 
讨论 了 基于 QBC 的 主动 学 习 方 法 和 EM 算法 相 融 合 的 DBNs 算法 以 及 基于 ERS 的 主动 学 
习 方 法 和 EM 算法 相 融 合 的 DBNs 算法 。 总 的 研究 结果 表明 ,利用 主动 学 习 算法 与 DBNs 
的 半 监 督学 习 算 法 相 结 合 ,能 够 提高 DBNs 学 习 的 效率 和 性 能 ,在 少量 的 迭代 次 数 后 快速 而 
准确 地 得 到 DBNs 分 类 模型 。 


1. 基于 误差 减少 和 EM 的 动态 贝 叶 斯 网 络 学 习 算 法 


(1) 算法 原理 

EM 算法 基于 已 标注 和 未 标注 样本 学 习 得 到 动态 贝 叶 斯 网 络 分 类 器 ,由 于 在 迭代 过 程 
中 易于 加 入 错误 的 样本 分 类 信息 , 那么 随 着 迭代 次 数 的 增加 而 误差 逐步 的 积累 ,最 后 必然 
会 影响 模型 的 准确 性 。 主 动 学 习 方 法 则 可 解决 该 问题 ,主动 学 习 方 法 选择 对 于 学 习 过 程 最 
为 有 用 的 样本 ,这些 样本 能 够 最 大 限度 地 减少 分 类 器 在 未 标注 样本 集 上 的 分 类 误差 ,因而 
最 大 程度 地 减少 了 错误 的 分 类 信息 的 加 入 。 

在 监督 学 习 中 , 用 户 所 标记 的 样本 是 有 宛 余 的 ,其 中 某 些 样本 类 别 完 全 可 通过 分 类 器 
可 靠 地 计算 得 到 , 半 监 督学 习 算 法 正 是 利用 了 该 原则 ,来 提高 学 习 器 性 能 。 而 半 监 督学 习 中 
引入 主动 学 习 方 法 ,又 能 够 使 得 分 类 器 对 未 标注 样本 的 软 分 类 更 加 准确 ,从 而 最 大 程度 地 保 
证 了 分 类 信息 的 正确 性 。 

动态 贝 叶 斯 网 络 分 类 器 通过 EM 算法 能 够 对 未 标记 样本 进行 软 分 类 , 并 且 根 据 已 标注 
样本 集 和 软 分 类 的 样本 重新 学 习 DBNs, 通 过 得 到 的 DBNs 分 类 器 可 度量 其 在 未 标注 样本 | 
池上 的 分 类 误差 损失 和 , 为 主动 学 习 算 法 中 样本 的 选择 提供 了 一 种 度量 的 依据 。 同 时 ,由 
于 主动 学 习 可 以 自主 挑选 有 用 样本 ,减少 学 习 所 需要 的 实际 标注 样本 数目 ,因而 加 快 了 学 习 
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过 程 。 

为 了 将 基于 误差 减少 的 主动 学 习 方法 引入 DBNs 的 EM 半 监 督学 习 中 ,算法 首先 根据 
已 标注 样本 集 工 和 未 标注 样本 集 U 学 习 动 态 贝 叶 斯 分 类 器 H ,在 每 次 迭代 过 程 中 对 任 一 
未 标注 样本 x; ,考虑 其 所 有 可 能 的 类 标签 y; ,加 (x; ,y;) 到 工 中 ,学 习 另 外 一 个 分 类 器 Hi+ ， 


根据 公式 (6. 6) 计 算 Hi A Ho 在 未 标注 样本 池上 的 分 类 误差 损失 减少 尺 . ,选择 使 得 尺 . 最 
大 的 未 标注 样本 来 请 求 用 户 标注 ,并 将 标注 后 的 样本 加 入 到 已 有 的 训练 集中 。 算 法 在 新 训 
练 集 上 利用 EM 学 习 最 终 的 分 类 器 五 ,如 果 该 分 类 器 的 精度 达到 预定 的 值 , 则 算法 停止 , 输 
出 最 终 分 类 器 五。 该 算法 保证 了 学 习 的 分 类 器 的 高 准确 性 ,并 且 减 少 人 工 标注 样本 的 数 
目 。 其 具体 算法 (DBNs-SSAL(ERS&EM)) 如 下 : 


Algorithm6.4 The semi-supervised active learning based on error reduction and EM for DBNs 


SSAL-EREM( 

L, // 少 量 带 有 类 别 标 注 的 样本 集 

U, // 未 带 类 别 标注 的 候选 样本 集 

// 选 择 停止 的 条 件 ( 这 里 是 分 类 精度 ) 

"ee 

1 利用 DBNs-SEM 算法 和 EM 算法 ,从 工 和 LU 中 学 习 DBNs 分 类 器 Hi ,并且 在 测试 集 上 计算 其 分 
类 准确 性 5。 

2 While not ¢{ 

3 对 于 Vx;EU， 考 察 其 每 一 个 可 能 的 类 标签 y;, HLT =L+(x;,9;), U =U- xj), $ 
后 使 用 DBNs-SEM 算法 和 EM 算法 从 工 - 和 UT 中 学 习 分 类 器 HL+ 。 

4 利用 公式 (6.6) 计 算 R,。 

5 对 于 Vz E S=s; (U) =arg maxR,, 从 口中 选择 xi 并 且 获 得 其 真实 的 类 标签 y; ， 然 后 加 


AL, BRL =L+(x;, y;/ ),U=U—(x;). 

6 使 用 DBNs-SEM 算法 A EMAEMA LAU HAJARE H, 并 且 在 测试 集 上 计算 其 分 类 准 
确 性 t. 

7} 

8 返回 H 


(2) 实验 结果 和 分 析 

实验 使 用 MIT AI Lab 的 Bayes Net Toolbox for Matlab 中 的 一 个 Water DBNs 的 例 
子 , 随 机 抽取 了 部 分 数据 进行 实验 。 其 中 训练 数据 2425 条 ,随机 选取 25 条 看 作 初 始 带 类 标 
签 数据 ,其 余 2400 条 数据 看 作 未 带 类 标签 数据 ,测试 数据 1800 条 。 

实验 对 比 了 基于 DBNs-SSAL(ERS&EM) 的 学 习 算 法 与 其 他 3 APE, AEH A 
QBC 主动 学 习 、 基 于 半 监 督学 习 (Semi-supervised Learning) 和 基于 监督 学 习 (Supervised 
Learning) 的 动态 贝 叶 斯 网 络 分 类 器 的 分 类 准确 性 。 实 验 结果 如 图 6. 8 所 示 。 从 实验 结果 来 
看 ,基于 DBNs-SSAL(ERS&EM ) 算 法 在 分 类 精度 上 好 于 主动 学 习 ( 见 图 6. 9) 、 半 监督 学 
习 , 随 着 选择 少量 样本 后 其 达到 了 与 监督 学 习 相同 的 分 类 精度 。 因 此 ,分 类 性 能 上 ,超过 了 
主动 学 习 和 半 监 督学 习 的 DBNs 分 类 器 。 但 是 ,由 于 DBNs-SSAL(ERS&EM ) 算 法 的 计算 
复杂 度 相当 高 ,运行 了 将 近 167h 未 得 出 最 终结 果 , 只 得 出 前 8 个 输出 值 ,因此 在 计算 效率 
上 ,不 如 主动 学 习 和 半 监 督学 习 。 
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图 6.8 基于 DBNs-SSAL(ERS&EM) 的 学 习 算 法 与 其 他 3 种 算法 学 习 结 果 比 较 





0.75 


>- DBNs-SSAL 
(ELRS&EM) 1 
> 主动 学 习 (VBE) 


0.74 


0.73 


0.71 


0.7 








= | | 
0 1 2 3 4 

训练 数据 
6.9 基于 DBNs-SSAL(ERS&EM) 的 学 习 算 法 与 主动 学 习 的 比较 


2. 基于 QBC 和 EM 的 动态 贝 叶 斯 网 络 学 习 算 法 


(1) 算法 原理 

基于 分 类 误差 损失 的 主动 学 习 方 法 ,虽然 其 学 习 准 确 率 高 ,但 是 选择 了 过 多 元 余 样 本 ， 
并 且 在 每 次 选择 样本 之 前 必须 搜索 整个 样本 空间 ,计算 每 个 样本 的 分 类 误差 损失 ,才能 确定 
哪些 样本 被 选择 ,因此 其 学 习 时 间 长 ,计算 复杂 度 高 ,对 于 利用 大 数据 量 未 标注 样本 的 半 监 
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督学 习 算法 并 不 可 行 。 

然而 ,基于 委员 会 投票 选择 的 主动 学 习 方 法 不 需要 检测 整个 样本 空间 ,计算 复杂 度 相 对 
较 低 ,学 习 速 度 快 ,但 是 ,基于 QBC 的 主动 学 习 方法 和 不 确定 性 抽样 都 易于 选择 奇异 点 样 
本 一 一 这 些 样本 有 较 高 的 不 确定 性 ,奇异 点 样本 的 加 入 会 使 得 分 类 器 的 分 类 误差 加 大 ,因此 
利用 第 6. 2. 2 4 HE He BY eB EH A) A A A QBC 主动 学 习 方 法 ,以 达到 抑制 
由 于 不 确定 性 样本 的 加 入 而 产生 的 误差 传播 问题 ,提高 QBC 算法 的 鲁 棒 性 。 同 时 ,利用 该 
主动 学 习 算 法 与 DBNs 的 半 监 督学 习 算法 结合 ,提高 DBNs 的 学 习 效率 和 性 能 。 

基于 QBC 的 主动 学 习 方 法 首先 根据 已 有 的 类 标签 数据 建立 两 个 或 多 个 分 类 器 ,组 成 
“委员 会 ”, 利 用 这 个 委员 会 对 预测 样本 进行 分 类 投票 ,然后 选择 投票 最 不 一 致 的 样本 作为 候 
选 样 本 。 这 种 方法 能 够 选择 对 于 学 习 过 程 最 为 有 用 的 样本 ,从 这 些 样本 中 获得 丰富 的 分 类 
信息 ,加 快 学 习 过 程 ,因此 它 能 够 使 用 很 少 的 已 标记 样本 达到 给 定 的 分 类 精度 ,减少 了 人 工 
标注 的 代价 。 但 是 ,由 于 奇异 点 样本 有 和 较 高 的 分 类 不 确定 性 ,因此 委员 会 对 其 投票 差异 较 
大 ,学 习 器 易于 选择 这 样 的 样本 加 入 训练 集 ,使 得 分 类 误差 加 大 。 

然而 ,基于 投票 粹 和 最 小 相对 粹 相 结合 的 QBC 算法 ,其 在 选择 投票 不 一 致 样本 的 同时 ， 
再 选择 一 些 分 类 相对 确定 并 含有 丰富 分 类 信息 的 样本 ,以 便 弥 补 分 类 误差 的 增 大 ,从 而 提高 
分 类 器 的 准确 性 。 

基于 QBC 和 EM 的 动态 贝 叶 斯 网 络 学 习 算 法 ,首先 根据 已 标注 样本 集 工 学习 个 动 
态 贝 叶 斯 分 类 器 ,组 成 投票 委员 会 ,在 每 次 迭代 过 程 中 对 任 一 未 标注 样本 进行 分 类 投票 ,如 
果 投 票 不 一 致 ,选择 该 样本 进行 标注 并 加 入 工 中 ,利用 DBNs-SEM 算法 和 EM 算法 ,从 二- 
AU 中 学 习 分 类 器 A; 如 果 投 票 一 致 ,根据 公式 (6. 26) 考 察 其 分 类 信息 的 含量 ,如 果 满 足 
某 一 姜 值 , 则 重复 和 投票 不 一 致 时 相同 的 操作 步 又。 重复 迭代 直到 满足 停止 条 件 。 其 具体 
算法 (DBNs-SSAL(VE-KLdmin&EM) 如 下 : 





Algorithm6.5 The semi-supervised active learning based on QBC and EM for DBNs 
SSAL-QBCEM( 

// 少 量 带 有 类 别 标 注 的 样本 集 

// 未 带 类 别 标 注 的 候选 样本 集 

// 选 择 停止 的 条 件 ( 这 里 是 分 类 精度 ) 
// BRR BE 

// S\N AB XS HY BEL 


While not ¢{ 
利用 DBNs-SEM 算法 和 EM 算法 , 在 L 上 学 习 K 个 DBNs 分 类 器 {hh ，,… he) ; 
对 于 Vx €U, 用 {hi 8 hil RAK, 
利用 公式 (6.15) 计 算 Dex; ) 。 
如 果 D(x;)> 0。 
从 U pix, 获得 其 真实 类 别 y; ,并 加 入 到 工 中 , HL=L+ (x,y; ),U=U 一 (x), 转 到 


wo 
X 
| 


如 果 D(X;)< 9, 利 用 公式 (6.26) 计 算 KL-dmin (x;)。 
如 果 KL-dmin (x; ) 满 足 a, 转 到 第 6 行 。 
利用 DBNs-SEM 算法 和 EM 算法 ,在 L 和 U 上 学 习 DBNs 分 类 器 H 


Do I ae dt 


= 
© 
~ 


11 返回 H 
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(2) 实验 结果 和 分 析 
实验 使 用 MIT AI Lab 的 Bayes Net Toolbox for Matlab 中 的 一 个 Water DBNs 的 例 


子 , 随 机 抽取 了 部 分 数据 进行 实验 。 其 中 训练 数据 2425 条 ,随机 选取 25 条 看 作 初 始 带 类 标 
SHE AR 2400 条 数据 看 作 未 带 类 标签 数据 ,测试 数据 1800 条 。 

实验 对 比 了 基于 DBNs-SSAL(VE-KLd,;, JEM) 的 学 习 算 法 与 其 他 3 种 算法 , 即 基于 
HAR QBC 主动 学 习 、 基 于 半 监 督学 习 和 基于 监督 学 习 的 动态 贝 叶 斯 网 络 分 类 器 的 分 类 
准确 性 。 实 验 结果 如 图 6. 10 所 示 。 基 于 DBNs-SSAL(VE-KLd,i, &EM) 算 法 运行 了 47.2 
分 钟 ,从 实验 结果 来 看 ,基于 DBNs-SSAL(VE-KL dyin &EM) 算 法 前 期 表现 与 主动 学 习 相 同 
(放大 图 见 图 6. 11) ,但 是 随 着 再 选择 少量 样本 后 其 达到 了 与 监督 学 习 相 同 的 分 类 精度 。 因 
此 ,无 论 是 效率 和 性 能 上 ,超过 了 其 他 3 种 版 本 的 DBNs 分 类 器 。 
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图 6. 10 基于 DBNs-SSAL(VE-KLd,in &EM) 的 学 习 算 法 与 其 他 3 种 算法 学 习 的 学 习 结 果 比 较 








下 面 的 实验 比较 了 基于 DBNs-SSAL (VE-KLd。。&EM) 算 法 和 基于 DBNs-SSAL 
(VE&EM) 算 法 。 实 验 结果 如 图 6. 12 所 示 , 从 实验 结果 来 看 ,基于 该 数据 集 的 VE&EM 算 
ERA HEF EAE QBC 主动 学 习 的 表现 相同 , VE-KL dyin & EM 算法 比 VE&EM 算法 
所 建 分 类 器 的 性 能 更 好 ,可 以 达到 与 监督 学 习 相 同 的 分 类 精度 。 因 此 ,基于 DBNs-SSAL 
(VE-KLdmn &EM) 算 法 能 够 在 少量 的 迭代 次 数 后 快速 而 准确 地 得 到 DBNs 分 类 模型 。 

从 计算 复杂 度 上 来 分 析 , 基 于 DBNs-SSAL ( VE-KLd,,, &EM) 算 法 要 比 基 于 DBNs- 
SSAL(ERS&EM) 算 法 复杂 度 低 ,实现 容易 ,并 且 其 两 者 分 类 表现 相当 。 


6.2.4 基于 主动 学 习 的 贝 叶 其 网络 结构 学 习 


通常 学 习 贝 叶 斯 网 络 结构 需要 大 量 的 训练 样本 数据 ,训练 样本 数据 需要 进行 人 工 标 注 
并 仔细 地 挑选 ,因此 十 分 耗费 人 力 和 物力 。2001 年 由 Simong Tong 和 Daphne Koller?! 提 
出 的 基于 主动 学 习 的 贝 叶 斯 网 络 学 习 方 法 能 够 有 效 地 解决 这 一 问题 。 其 利用 主动 学 习 机 制 
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6.11 基于 DBNs-SSAL(VE*KLdws&EM) 算 法 与 主动 学 习 的 学 习 结 果 比 较 
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图 6.12 基于 DBNs-SSAL(VE-KLdyin &EM) 算 法 与 基于 DBNs-SSAL(VE&EM) 算 法 的 学 习 结果 比较 


决定 最 有 信息 价值 的 学 习 过 程 来 发 现 潜 在 的 最 佳 模 型 结构 。 主 动 学 习 器 在 结构 学 习 过 程 中 
通过 设置 一 些 变 量 的 值 来 介入 学 习 过 程 。Tong 和 Koller 描述 的 算法 主要 是 基于 当前 的 模 
型 结构 ,来 主动 地 选择 下 一 步 需 要 的 训练 样本 ,而 不 是 被 动 地 按 样 本 顺序 接受 数据 来 学 习 结 
构 。 他 们 的 实验 结果 表明 主动 学 习 能 够 大 幅度 减少 所 需 训练 数据 量 , 并 且 同 被 动 学 习 相 比 ， 


基于 相同 数据 量 其 能 够 学 习 更 为 准确 的 贝 叶 斯 网 络 结构 。 
下 面 介绍 该 算法 的 基本 原理 和 实验 效果 。 
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1. 贝 叶 斯 网 络 的 介入 查询 学 习 


假定 一 个 贝 叶 斯 网 络 (G,06) ,其 用 一 组 随机 变量 x 二 {Xi,…,X,}) 来 表示 结 点 变量 ,用 
Val[ X;] 表 示 变 量 的 取 值 范围 。 由 于 贝 叶 斯 网 络 是 一 个 概率 模型 , 它 可 以 回答 形 如 PCX: | 
Pa(X = 二 wu) 的 查询 问题 ,其 中 wu; 表示 Pa(X;) 的 一 组 取 值 。 同 时 , 贝 叶 斯 网 络 也 可 以 看 作 
是 一 个 因果 模型 ,因此 其 可 以 被 用 来 回答 介 人 查询 ,这 使 得 在 介 人 模型 后 ,即使 某 些 变量 被 
迫 等 于 某 个 特定 值 时 ,也 能 够 得 到 相关 的 概率 分 布 。 

介入 动作 很 可 能 导致 删除 变量 的 某 个 边 ,而 破坏 了 模型 的 结构 。 也 就 是 说 ,在 介入 动作 
以 后 ,模型 中 结 点 和 没有 了 父 结 点 ,然而 真实 模型 中 ,X 王 z 通过 证 据 推理 可 能 给 出 关于 其 
父 结 点 的 一 些 信息 ,但 是 在 人 介入 学 习 过 程 中 ,X=z 的 事实 并 没 给 出 任何 关于 其 父 结 点 取 
值 的 任何 信息 。 比 如 ,对 于 一 个 汽车 故障 诊断 模型 ,如 果 观 察 到 电池 没有 充电 ,那么 可 能 会 
得 出 发 电机 传输 带 出 问题 了 。 但 是 如 果 故 意 抽 干 电池 ,那么 电池 是 空 的 事实 不 会 提供 任何 
关于 发 电机 传输 带 的 信息 。 因 此 ,如 果 设 置 XX: 二 zx, 那么 结果 模型 的 分 布 中 ,由 于 破坏 了 结 
构 GC( 即 删除 了 到 X 的 边 ) ,需要 设置 这 些 结 点 的 CPDs, 以 便 使 X=z 时 的 概率 是 1。 

文献 L[58] 算 法 的 目标 是 从 数据 中 学 习 结 构 G* 。 很 显然 ,给 定 足 够 的 数据 ,是 能 够 重新 
构造 出 模型 的 概率 分 布 P* 的 。 然 而 ,一 般 来 说 ,P" 并 不 是 唯一 地 决定 模型 结构 G。 例 如 ， 
如 果 网 络 结构 G* 有 形式 X 一 ”~Y, 那 么 对 于 相同 的 P* 也 能 够 等 价 得 出 Y 一 ~X。 对 于 给 
定 的 来 自 P* 的 样本 ,希望 最 好 能 够 得 到 G 的 马尔 可 夫 等 价 类 5 : 一 组 能 够 准确 地 推导 出 
相同 独立 假设 的 网 络 结构 集合 。 在 马尔 可 夫 等 价 类 中 ,网 络 的 框架 (连接 (X,Y) 的 边 集合 ) 
是 固定 的 ,但 是 对 于 一 些 边 , 有 的 边 的 方向 是 固定 的 ,而 其 他 边 的 方向 是 任意 的 。 如 果 试 图 
得 到 X 和 了 之 间 的 边 的 方向 ,那么 在 X 处 介入 ,改变 其 取 值 ,看 到 关于 Y 的 分 布 并 没有 变 
化 ,但 是 在 Y 处 介入 时 ,关于 X 的 分 布 变化 了 ,就 此 会 得 出 边 的 方向 是 了 Y 一 >~X, 因 为 了 的 
变化 而 导致 了 X 的 变化 。 

因此 ,文献 [58j 的 算法 是 利用 介入 机 制 来 学 习 变 量 之 间 的 关系 。 其 通过 主动 学 习 器 选 
择 某 些 变量 进行 介入 ,控制 这 些 变量 的 取 值 , 并 通过 查询 ,获得 在 该 介入 情形 下 其 他 变量 的 
取 值 结果 ,通过 获取 的 数据 样本 进一步 学 习 网 络 结构 ,算法 不 断 重复 这 个 过 程 , 直 到 收敛 。 
在 这 里 ,算法 用 Q 表示 查询 变量 的 子 集 , 主动 学 习 器 能 够 为 Q 选择 特别 的 取 值 g。 请 求 
Q: =q 叫做 查询 ,查询 结果 被 称 为 响应 ,其 是 一 个 所 有 非 查 询 变量 随机 抽样 的 样本 zx。 换 句 
话说 ,z 是 一 个 查询 的 结果 ,通过 设 定 Q 取 9 值 来 介 人 时 ,z 是 从 上 面 描述 的 被 破坏 的 模型 
中 抽样 而 来 。 

那么 介入 查询 获得 新 的 数据 样本 (zx,q) 以 后 ,算法 是 如 何 更 新 网 络 结构 和 参数 分 布 
的 呢 ?. 

首先 算法 假设 CPD SERAZ MARE KM Dirichlet 分 布 。 

给 定 一 个 在 x 上 完整 的 抽样 样本 4 ,使 用 贝 叶 斯 规则 得 到 在 结构 G 上 的 后 验 分 布 是 
P(41G)P(G)。P(4d1G) 可 以 被 表达 成 在 G 上 的 所 有 可 能 参数 值 的 积分 , 即 


P(d|G) = [Pca | G,06) p(s | G) db (6,27) 


如 果 d 不 是 一 个 完整 的 抽样 数据 , 当 进行 了 一 个 介 人 查询 Q: 二 q, 并 且 响 应 结果 是 获得 
了 数据 zx, 算法 通过 恒等式 (6. 28) 来 更 新 概率 分 布 P(G,60c), 即 
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P(G,0s | Q: = 4.x) = p(s | Q: = 9.2,G) + P(G | Q: = g,7) (6. 28), 
从 式 (6. 28) 可 以 看 出 ,获得 新 的 贝 叶 斯 网 络 需 要 更 新 参数 密度 和 更 新 结构 的 分 布 。. 
对 于 参数 的 更 新 ,由 于 介入 动作 已 经 使 Q 等 于 某 个 固定 值 ,所 以 只 需要 利用 新 的 数据 样 
本 更 新 非 查询 变量 的 参数 。 对 于 更 新 结构 分 布 ,该 算法 使 用 公式 (6. 29) 来 计算 P(C|Q: 一 9,z)， 
其 来 自 Cooper 和 Yoo 的 文献 [300 ] 中 的 定理 , 即 


PGI Q= pa) = EE lQ = aP 


P(x | Q: = q) 
z P(G) : 4 96 
Palo.= 5 See | z+q) (6. 29) 
其 中 ， 
Score(X;,U | d) = [Pca | u s0x 1u) plOx 1u) dx iu = PCx; | u) (6. 30) 


Ti FI u 是 X， 和 LU 在 数据 样本 了 中 的 值 。 
2. 主动 学 习 思 想 


文献 [58j 的 算法 的 主要 目标 不 只 是 基于 介入 数据 更 新 分 布 ,其 重点 是 利用 主动 学 习 方 
法 主动 地 选择 数据 ,这 些 数 据 可 以 使 学 习 器 学 习 到 最 佳 的 网 络 结构 。 一 个 近视 ( Myopic) 的 
主动 学 习 器 ! 是 一 个 函数 ,其 可 以 基于 当前 结构 和 参数 的 分 布 来 选择 一 个 查询 Q: 二 ,进而 
获得 响应 数据 z, 以 便 更 新 结构 和 参数 的 分 布 。 主 动 学 习 器 不 断 重 复 这 个 过 程 , 直 到 算法 收 
敛 。 之 前 描述 了 该 算法 如 何 更 新 结构 和 参数 的 分 布 ,现在 介绍 一 下 该 算法 是 如 何 构 造 这 个 
主动 学 习 器 ,以 达到 基于 当前 的 分 布 已 来 选择 下 一 个 查询 。 
正如 Tong 和 Koller(76) 文 中 的 研究 工作 一 样 ,构造 主动 学 习 器 的 关键 步骤 是 定义 一 
个 评价 函数 ,用 它 来 评价 网 络 结构 和 参数 分 布 得 好 坏 。 通 过 使 用 这 个 评价 函数 来 评价 究竟 
哪些 数据 样本 可 能 提高 网 络 的 分 布 质量 ,进而 选择 下 一 个 查询 来 进行 结构 学 习 。 
给 定 一 个 网 络 结构 和 参数 的 分 布 P(G,b%c) ,该 算法 使 用 损失 函数 Loss(P) 来 度量 结构 
和 参数 分 布 的 质量 。 给 定 一 个 查询 Q: 二 g, 算 法 定义 了 查询 的 期 望 后 验 损失 为 
ExPLoss(P(G,0c) | Q: = q) = Eraio. =p Loss(P(G,0c | Q: = g,7x)) (6.31) 
基于 这 个 定义 ,一 个 简单 的 算法 是 : 对 于 每 一 个 候选 查询 Q: 二 gq, 评 估 其 期 望 后 验 损 
失 ,然后 选择 度量 值 最 低 的 那个 查询 。 然 而 ,期 望 后 验 损失 的 计算 复杂 度 相 当 高 。 因 为 算法 
需要 在 结构 集合 上 获得 一 个 分 布 , 网 络 结构 的 数目 是 结 点 数目 的 超 指数 ,并 且 给 定 一 个 查 
询 ,为 了 计算 期 望 后 验 损失 ,算法 不 得 不 在 整个 结构 集合 上 对 可 能 的 每 一 个 指数 级 响应 进行 
计算 。 为 了 确保 学 习 算法 的 收敛 ,必须 合理 定义 一 个 损失 函数 。 
由 于 该 算法 的 主要 目标 是 学 习 正 确 的 网 络 结构 ,因此 ,算法 只 对 图 模型 的 形式 和 每 一 个 
有 向 边 感 兴趣 。 对 于 两 个 结 点 X 和 Xi ,有 3 种 可 能 的 边 的 关系 , 即 X; 一 Xi 、Xi<Xi、X， 
X;。 由 于 ,利用 P(C,bc) 可 以 导出 这 3 种 可 能 的 边 的 关系 的 一 个 分 布 ,因此 ,通过 对 推导 出 
BAIS Sd A BG LAT AE Oh a NB EH BS EB 
H(X:>X;,)=— P(X; > X;)logP(X; > X;) 
— P(X; < X;) logP(X; < X;) 
— P(X;X;)logP(X;X;) (6. 32) 
RK. KPAX: AX; 之 间 的 关系 越 不 确定 。 式 (6. 32) 构 成 了 主动 学 习 器 
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WTA PBB AY SEH A 
Loss(P(G,6¢)) = SAX (6. 33) 


通过 对 分 布 P(G,bc) 定 义 了 损失 函数 后 ，Tong 和 Koller 提出 一 个 有 效 的 算法 来 计算 
给 定 的 查询 Q; = 的 期 望 后 验 损失 。 注意 到 P(G,06) 是 当前 的 分 布 , 其 是 由 目前 所 获得 的 
所 有 数据 决定 的 。 在 算法 的 初始 , 这 是 一 个 先 验 分 布 ， 随 着 算法 不 断 获得 更 多 的 数据 ， 主 
动 学 习 器 使 用 如 前 所 描述 的 方法 来 更 新 P(G,b%c) ,然后 应 用 这 个 更 新 的 P(G,bce) 再 作为 新 
的 先 验 分 布 ,不 断 重复 这 个 过 程 。 


3. 结 点 顺序 分 析 


为 了 使 算法 可 执行 ,Tong 和 Koller 又 引入 结 点 顺序 的 一 个 分 布 , 即 网 络 结构 遵循 某 个 
完全 的 结 点 顺序 <。 这 个 问题 分 为 了 两 种 情况 : 

(1) 一 个 固定 的 结 点 顺序 

<E y 的 一 个 完全 顺序 。 只 关注 那些 满足 过 的 网 络 结构 , 即 如 果 存 在 边 XY 了 ,那么 
XY。 假 设 在 每 一 次 查询 迭代 之 前 ,每 一 个 结 点 X Am 个 最 可 能 的 固定 父 结 点 集 W;。 结 
点 固定 顺序 的 限制 ,主要 作用 在 于 : 一 个 结 点 的 父 结 点 选择 独立 于 其 他 结 点 父 结 点 的 选择 
(301 和 302). 文献 [58] 给 出 了 下 边 两 个 重要 的 结论 , 即 给 出 了 查询 响应 z 的 概率 分 布 和 边 
的 概率 分 布 的 有 效 计算 表达 形式 。 

定理 6.2 给 定 一 个 查询 Q: 二 gq, 对 于 这 个 查询 响应 z 的 概率 为 

Pix |Q: =q, <)= >, [IP Pax» = Us) Score(X,,U® | zx,q) 
GE< i 5:X;€Q 

= || >) P(Pa(X;) = U)Score(X;,U | zq) (6.34). 

i:X,€Q UEu; < 


其 中 ,Xo = [[ >) PPX) =U). 


iX EQ UEu; < 
定理 6.3 给 定 一 个 查询 Q: =q 和 其 完整 的 响应 z, 边 X >X 的 概率 为 
Svena mgen? (Pa(X,) = U)Score(X;U | x19) 


P = he ees a a a 
iven, , PCPa(X) = U)Score(X;,U | z,q) 


(6. 35) 
其 中 ,定义 如 果 X: EQ, N] Score(X;,U|xz,q)=1. 
现在 考虑 给 定 < 的 期 望 后 验 损失 : 
© ExPLoss< (P(G,6¢) | Q: = q) = E, pcxlQ:-0,<) DH (Xe X, |Q: = g,z, <) 


(6. 36) 
使 用 定理 6. 3 计算 HC X; X;|Q:=9.2,<) FFAMREH WEB, H(X: X, | 
Q:=qz,<<) 仅 仅 依赖 于 g 和 z 给 X、X、W; 和 人 殉 ) 的 值 。 使 用 这 个 事实 那么 应 用 定理 6. 2， 
可 以 重新 把 期 望 后 验 损 失 公 式 (6. 36) 写 成 
ExPLoss< (P(G,b) | Q: = Q= Ex-rnxia-0<) 2 再 (Xe | List; Wi, Wj, <) 


一 ay > Pt |Q: = gs <)H(X;-X; | Xi9X;9>W:,W;, <) 
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= SAK eX; | tisz; Wi Wj <) Xa [| D PPX) 


#:X,€Q UEu, < 


=U Score( X, ,UU la. Wa) 


= Aa >) Dylai srj Wi W) [gz (6. 37) 
isj m k:X,¢Q 
其 中 ， 
PX; 9X; »W;,W;) = H(X;°X; | Zis Tj W: W}, <) (6. 38) 
lre Wa) = a P(Pa(X,)) =U Score(X,,U |x, >Wi) (6. 39) 
UE u, 


可 以 使 用 标准 的 图 模型 推理 过 程 5"5 有 效 评 估 公 式 (6. 37) 。 
(2) 不 限制 结 点 的 顺序 
先前 对 于 给 定 的 结 点 顺序 ,关于 一 个 查询 获得 了 一 个 闭合 形式 表达 的 期 望 后 验 损失 计 
算 公 式 。 现 在 ,通过 忽略 对 结 点 顺序 的 限制 ,来 考虑 一 般 化 问题 ,那么 期 望 后 验 损失 能 被 重 
新 写 回 下 面 的 表达 形式 , 即 
ExPLoss(P(G,6¢) | Q: =q) 
= EF, pcxjq.<9 Loss(P(G,¢ | Q: = gq,7)) 
= Ez E,~x\9.<9,<) Loss(P(G,¢ | Q: = q,x)) 


= Ex Enri) YHXX; | Q: = qx) (6. 40) 


顺序 的 期 望 值 E< 可 以 用 从 当前 结构 和 参数 的 分 布 ,抽样 可 能 的 顺序 来 近似 。 正如 
Friedman 和 Koller! +148 H K9, EH MCMC 技术 可 以 有 效 计算 顺序 的 抽样 。 


4. 算法 的 描述 


现在 对 Tong 和 Koller 的 基于 主动 学 习 的 贝 叶 斯 网 络 结构 学 习 算法 做 一 总 结 。 该 算法 
首先 从 模型 和 参数 的 当前 分 布 抽样 一 套 顺序 集合 ,然后 使 用 这 套 顺 序 集合 计算 每 一 个 可 能 
AHRR HOX, |Q: 一 g,z)。 接 着 ,对 每 一 个 顺序 ,使 用 标准 的 贝 叶 斯 网 络 推理 算法 计 


算 E.~pexiama< Dy H (Xi X;|Q: 一 q,z) ,以 获得 在 每 一 个 可 能 查询 上 的 因子 h<(Q)。 接 


着 ,针对 每 一 个 可 能 的 查询 ,所 有 不 同 顺序 的 查询 因子 求 平均 值 。 

例如 ,如 果 有 3 个 顺序 ,分 别 获 得 了 3 个 因子 he CQ) her (Q) hes CQ) ,接着 需要 产生 
一 个 新 的 因子 h(Q) ,在 这 个 因子 中 ,每 个 h(g) 实 体 是 3 个 原始 因子 中 g 实体 的 平均 。 平 均 
这 些 因 子 的 过 程 就 是 计算 所 有 顺序 的 期 望 。 最 后 的 结果 是 一 个 查询 因子 h(Q) ,对 于 查询 变 
E Q 的 每 一 个 可 能 的 值 g ,该 因子 给 出 了 相应 的 期 望 后 验 损失 值 , 最 后 选择 期 望 后 验 损失 值 
最 低 的 查询 进行 响应 。 

贝 叶 斯 网 络 结构 的 主动 学 习 算 法 描述 如 下 : 


Algorithm6.6 The active learning for BN structure 

Active Learning( P(G, 0¢)) 

1 Sample orderings using MCMC // 使 用 MCMC 抽样 一 组 结 点 顺序 

2 Compute and cache ¢ functions for each X;, Xi pair // 对 每 一 个 结 点 对 (X;, X/) UE y 函数 并 缓存 其 值 
3 For each set of candidate query variables Q // 对 每 一 组 候选 查询 变量 
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4 For each ordering // 对 每 一 个 顺序 
5 Compute the loss factor h< (Q) associated with the ordering with Eq. (6.37) 
// 使 用 公式 (6.37) 计 算 每 组 顺序 的 损失 因子 h< (Q) 
6 End For 
7 Average the loss factors h< (Q) obtained from each ordering to obtain the expected posterior loss 
factor h(Q) // 对 所 有 顺序 的 损失 因子 求 平均 值 , 获得 期 望 损失 因子 AQ) 
8 End For 


9 Scan expected posterior loss factor h(Q) for query q with lowest value 

// 搜 索 最 低 损 失 值 的 查询 变量 组 合 及 其 取 值 
10 Ask query Q: =q : 
11 Receive complete response x 
12 Update P(G, 0c) // 利 用 获得 的 新 数据 更 新 贝 叶 斯 网 络 参数 和 结构 分 布 
13 Repeat 


5. 实验 结果 和 分 析 


实验 对 主动 学 习 方法 和 随机 抽样 以 及 以 均匀 分 布 选择 查询 结 点 作 了 比较 ,每 个 方法 对 
所 有 结 点 对 的 可 能 的 边 做 评价 。 图 6. 13(b) 、c) 和 (d) 示 出 了 随机 抽样 ,均匀 分 布 选择 查询 
和 主动 查询 对 于 Cancer 网 络 [ 图 6.13(a)], 各 自 估计 的 因果 边 概率 。 图 6. 13(b) 显 示 了 随 
机 抽样 方法 需要 更 多 随机 观测 数据 来 学 习 一 些 边 的 方向 ,图 6. 13(d) 显 示 了 主动 学 习 方 法 
比 均 匀 分 布 选择 查询 产生 了 更 好 的 结 点 间 因 果 介 和 人 估计。 实验 反映 出 主动 学 习 方法 更 好 地 
揭示 了 边 及 其 方向 , 其 是 唯一 能 在 给 定 50 个 查询 的 限制 下 得 到 良好 结果 的 方法 。 





(c) 20 个 观测 数据 和 50 次 统一 ”(d) 20 个 观测 数据 和 50 次 主动 
查询 的 Cancer 网 络 查询 的 Cancer 网 络 


图 6.13 实验 结果 


90 第 6 章 概率 图 模型 的 新 型 学 习 方 法 


6.3 增 量 学 习 


6.3.1 基本 原理 


在 某 些 机 器 学 习 算 法 里 ， 如 主动 学 习 ， 最 基本 和 最 频繁 的 操作 就 是 使 用 当前 的 模型 在 
增加 新 的 样本 后 对 网 络 参数 的 修正 。 如 果 每 次 增加 训练 样本 后 都 重新 学 习 分 类 参数 ,复杂 
性 是 相当 高 的 ,然而 贝 叶 斯 学 习 具 有 增 量 学 习 的 特性 , 使 得 这 些 计 算 可 以 增 量 地 进行 ,从 而 
大 大 地 缩减 了 问题 的 规模 ,图 6. 14 给 出 了 贝 叶 斯 网 络 增 量 学 习 的 模型 。 约 定 样 本 空间 S 由 
特征 空间 已 和 类 别 空间 C 组 成 : S$ 一 (ss ,…,s} 一 一 X,C>。 由 于 新 的 训练 样本 的 加 入 ， 
使 得 先 验 信息 由 p(9|X,) 变 为 pL015,X,)。 它 综合 了 样本 信息 和 先 验 信息 ,这 正 是 贝 叶 斯 
增 量 学 习 模 型 的 基础 ,可 简单 理解 为 

后 验 知识 (Xi) = 先 验 知识 (Xo) 十 样本 信息 (S) 

当 新 的 样本 到 来 时 ,上 面 的 后 验 知识 变 成 先 验 知识 ,因此 它 是 一 个 利用 样本 知识 来 修正 

当前 知识 的 连续 的 、 动 态 的 过 程 。 


P(AIS, Xo) 
样本 知识 p(S16 Xo) 


图 6.14 增 量 学 习 模 型 





6.3.2 贝 叶 斯 网 络 参数 的 增 量 学 习 方法 


在 增 量 学 习 中 ,训练 数据 分 为 初始 样本 集 工 和 新 加 入 的 样本 集 工 *。 首 先 ,在 初始 样本 
集 工 上 进行 贝 叶 斯 网 络 的 结构 学 习 和 参数 学 习 , 得 到 当前 网 络 的 结构 和 参数 。 假 设 模型 中 
的 结 点 变量 为 离散 的 ,参数 采用 Uniform Dirichlet 先 验 分 布 , 则 根据 3. 3. 2 小 节 中 的 公 
式 (3. 36) ,参数 估计 由 以 下 公式 获得 。 

根 结 点 参数 估计 , 即 
1+ count(Y,) 

VY HF] 
式 中 ,count(Y,) 表 示 初 始 样本 集中 根 结 点 立 取 第 > 个 值 的 样本 个 数 ，|Y| 表 示 该 结 点 的 取 
值 个 数 ;| 工 | 为 初始 样本 集 的 样本 个 数 。 

只 有 一 个 根 结 点 为 父 结 点 的 子 结 点 参数 估计 , 即 


Ön = ps 1Y, 0) = LEUDA A Y,) (6. 42) 


| X; |+ count(Y,) 
式 中 ,Xx 为 第 ; 个 结 点 的 第 & 个 取 值 。 
具有 两 个 父 结 点 (其 中 一 个 为 根 结 点 ) 的 子 结 点 参数 估计 , 即 


1 二 count(X; A X, A Y,) 
| X; |4+ count(X; A Y,) 


6 = p(Y, | 9) = (6. 41) 





Gajtir = PCXe | Y,, Xi ;0) = (6.43) 
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网 络 中 的 其 他 参数 估计 可 依 此 类 推 。 

接 下 来 ,进入 增 量 学 习 过 程 。 增 量 学 习 过 程 主要 是 针对 新 增加 的 训练 样本 的 处 理 ,对 于 
新 增加 的 训练 实例 ,如 果 当 前 模型 (这 里 假设 它 是 分 类 器 ) 对 其 分 类 正确 , 则 不 更 新 模型 结 
构 , 只 进行 参数 增 量 调整 。 如 果 分 类 不 正确 , 则 对 结构 ( 见 6. 3. 3 节 的 “ 贝 叶 斯 网 络 结构 的 增 
量 学 习 方 法 >) 和 参数 都 要 进行 增 量 调整 。 





参数 增 量 的 调整 公式 为 
1 + count(Y,) + count’ (Y,) 
= = = (6. 44) 
a= pW, | 6) TY THI LI+IL'| 
Gin = 力 (Xx | Y,30) = 1+ count(Xs A Y,) + count (Xa A Y.) (6. 45) 


| X; | 十 count(Y,) + count CY,) 


1+ count(Xa A Xa A Y,) + count (Xa A Xu A Y,) 
| X; |4+-count(X; A Y,) + count (X; A Y,) 


(6. 46) 


Oair = 力 (和 ax | Y,, X30 ) = 





其 中 ,count (Y,) 表 示 新 增 样本 集 二 中 根 结 点 Y 取 第 r 个 值 的 样本 个 数 。 
6.3.3 贝 叶 斯 网 络 结构 的 增 量 学 习 方法 


贝 叶 斯 网 络 结构 的 增 量 学 习 主 要 适用 于 贝 叶 斯 网 络 的 在 线 学 习 和 大 数据 集 下 数据 不 能 
一 次 性 读 人 内 存 , 需 要 若干 批 次 进行 学 习 的 场合 。Friedman 给 出 了 一 种 贝 叶 斯 网 络 结构 的 
增 量 学 习 方 法 ,目前 有 多 种 基于 此 思想 的 学 习 方 法 的 变换 ,在 此 就 不 一 一 袭 述 了 ,而 只 给 出 
其 基本 学 习 策 略 。 

最 简单 的 贝 叶 斯 网 络 结构 增 量 学 习 的 策略 是 :将 数据 分 为 若干 批 次 来 学 ,每 一 批 次 的 学 
习 都 要 找 出 一 个 后 验 概率 最 大 的 网 络 ,作为 下 一 批 次 数据 学 习 的 初始 网 络 。 这 种 算法 的 优 
点 是 每 一 次 的 空间 开销 都 比较 稳定 合理 ,因为 它 只 保存 当前 批 次 的 数据 ,已 经 学 过 的 数据 完 
全 抛弃 。 但 它 的 缺点 是 经 过 若干 次 的 迭代 后 ,网 络 会 锁定 在 某 个 网 络 模型 上 ,丧失 对 新 数据 
的 适应 能 力 。 针 对 此 问题 ,Friedman 提出 了 针对 当前 批 次 数据 的 学 习 产 生 一 系列 候选 网 络 


作为 下 一 批 数据 学 习 的 初始 网 络 , 并 且 引 入 了 充分 统计 量 Suff(G) = (Nx. pcx 21 <i<n)} 


Nx, aex) 是 结 点 X 和 其 父 结 点 各 取 值 组 合 在 原 数据 集中 的 样本 数量 的 向 量 ) 对 学 过 的 数据 
集 的 信息 进行 存储 保留 ,每 一 批 数据 学 习 后 都 为 下 一 批 次 的 学 习 做 了 充分 的 准备 ,保存 了 更 
多 的 先 验 知识 ,也 使 以 后 学 出 的 网 络 能 与 潜在 的 网 络 模 型 拟 合 得 更 好 一 些 。 实 验 结果 也 表 
HH ,无 论 是 在 存储 空间 的 压缩 还 是 在 学 出 的 网 络 质量 的 方面 ,该 方法 都 行 之 有 效 。 

Algorithm6. 7 给 出 了 算法 的 伪 代 码 , 其 中 , 贝 叶 斯 网 络 表示 为 (G,9), 下 表示 由 当前 网 
络 中 任意 两 个 结 点 之 间 加 边 、 减 边 和 逆转 边 等 操作 形成 的 一 系列 候选 网 络 ,Nets(S) 表 示 那 
些 被 充分 统计 量 记录 集合 S 所 评价 的 网 络 结构 的 集合 , 即 Nets(S) ={G:Suff(G)CS}, 


Algorithm6.7 The incremental learning for BN structure 
Incremental learning( 

G, // 初 始 网 络 结构 

F, // 初 始 网 络 的 候选 网 络 集合 
) 

1 


S=Suff(G) U UserSuff(G’)  // 基 于 初始 数据 集 ,对 初始 网 络 和 所 有 候选 网 络 计 算 充 分 统计 量 
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2 Forever 

3 Read new data u, // 获 得 新 增 数 据 un 

4 Update each record in S using u，// 使 用 u, 更 新 充分 统计 量 集合 S 
5 Ifn mod k=0 then 


6 G= arg maxç'e nass) Score(G’ | S) // 获 得 评分 最 高 的 网 络 结构 
7 Update the frontier F (using a search procedure) // 更 新 候选 网 络 集合 
8 Set S to Suff(G) U User Suff(G’) 

9 Compute optimal parameters 0 for G from S 

10 Output (G,@) 


算法 初始 给 定 了 初始 网 络 和 候选 网 络 集 下 ,第 1 行 计算 候选 网 络 的 充分 统计 量 ; 第 3 

行 读 人 一 条 或 一 批 新 的 数据 ;第 4 行 更 新 充分 统计 量 ; 第 5 一 9 行 找 出 候选 网 络 中 打分 值 最 

高 的 网 络 作为 当前 的 网 络 结构 ,接着 搜索 找 出 候选 网 络 中 打分 值 较 高 的 网 络 ,作为 下 一 批 数 
据 学 习 的 初始 网 络 ,同时 更 新 充分 统计 量 ; 第 10 行 输出 最 终 的 网 络 结构 和 相关 的 参数 。 

对 于 打分 函数 ,先前 的 打分 函数 都 是 针对 于 批量 数据 学 习 的 ,也 就 是 对 于 不 同 网 络 结构 

的 打分 都 是 建立 在 同一 个 数据 集 上 ,数据 集 是 固定 不 变 的 ,但 是 对 于 增 量 学 习 来 说 ,数据 集 

是 变化 的 ,这 一 条 件 已 经 不 成 立 了 。 每 一 批 数据 的 到 来 都 要 更 新 数据 集 ,该 情况 也 就 是 在 不 

同 的 时 刻 \ 在 不 同 的 数据 集 上 对 不 同 的 网 络 结构 进行 打分 。 为 解决 这 一 问题 ,引入 平均 打分 

函数 ,实际 上 就 是 用 在 批量 学 习 上 的 打分 函数 除 以 记录 该 结 点 的 充分 统计 量 的 结 点 的 记录 

条 数 ,定义 的 平均 打分 函数 为 
ScorewnpL(BpEP) (X; »PaCX;)) = Scorempcpe (Xi, Pa( Xi)) 
N(x; ,Pa(z;)) 


z;+PaCz;) 


式 中 ,Scorevpreoep (X; , Pa(X;)) 为 常见 的 批量 学 习 算法 中 的 MDL 或 BDE 打分 函数 ; 
.Paco NGCzi，Pa(zi)) 为 指 参与 对 X; 结 点 打分 的 所 有 的 记录 条 数 。 针 对 变化 的 数据 集 , 该 
打分 的 含义 实际 上 就 是 用 平均 到 记录 上 的 Scorempicepey (X;,PaCX;)) FI AK IE Wk BR 
据 集 下 的 局 部 分 数 。 


(6. 47) 


第 7 章 
概率 图 模型 理论 在 计算 机 视觉 中 的 应 用 


最 近 几 年 ,概率 图 模型 已 经 被 广泛 应 用 在 计算 机 视觉 领域 ,从 低级 别 的 图 像 处 理 任 务 ， 
如 特征 提取 、 图 像 分 割 , 到 中 级 别 的 目标 检测 .跟踪 和 识别 ,乃至 高 级 别 的 动作 和 行为 建 模 识 
别 , 都 在 使 用 概率 图 模型 解决 这 些 计算 机 视觉 问题 。 

本 章 将 对 近 5 年 概率 图 模型 在 计算 机 视觉 中 的 研究 状况 作 详细 的 总 结 , 重点 分 析 了 图 
像 分 割 、 目 标 检测 与 识别 .目标 跟踪 、 活 动 建 模 和 识别 中 的 概率 图 模型 的 应 用 。 根 据 任务 类 
别 ,对 模型 进行 了 分 类 ,讨论 了 它们 的 优 、 缺 点 。 


7.1 基于 概率 图 模型 的 图 像 分 割 


概率 图 模型 广泛 运用 于 计算 机 视觉 领域 ,图 像 分 割 便 是 其 成 功 应 用 的 一 个 典 例 。MRF 
Al CRF 是 图 像 分 割 中 常见 的 概率 图 模型 ,其 中 尤 以 MRF 模型 使 用 的 时 间 最 长 。 它 们 常常 
被 用 来 描述 图 像 不 同 区 域 之 间 的 空间 关系 。 例 如 ,一 个 图 像 可 以 分 解 成 二 维 的 网 格 , 每 个 网 
格 点 对 应 一 个 类 别 变量 和 观测 变量 ,生成 MRF 模型 可 以 用 来 描述 所 有 这 些 变 量 的 联合 概 
率 分 布 。 根 据 贝 叶 斯 法 则 ,这 个 联合 概率 分 布 可 以 被 分 解 成 观测 变量 关于 类 别 变量 的 条 件 
概率 和 类 别 变量 的 先 验 概率 的 乘积 。 类 别 变量 的 先 验 概率 一 般 是 指 空 间 相 邻 的 图 像 点 趋 于 
同一 类 别 ,常常 用 一 个 马尔 可 夫 随 机 场 来 描述 。 

在 MRF 的 基础 上 也 衍生 出 了 很 多 结构 更 复杂 的 模型 。 例 如 ,在 文献 [164,168] 中 , 4E 
者 提出 了 一 个 多 尺度 分 层 模 型 。 图 像 在 不 同 的 尺度 上 被 分 割 成 局 部 区 域 , 结 点 由 高 层 到 低 
层 对 应 图 像 中 越 来 越 精细 的 区 域 。 两 个 相 邻 层 中 的 随机 变量 形成 一 个 马尔 可 夫 链 。 这 
种 多 尺度 分 层 模 型 可 以 更 好 地 描述 图 像 在 不 同 尺 度 内 的 空间 关系 ,与 基本 MRF 模型 相 
E ,往往 具 有 更 好 的 效果 。 图 7. 1 给 出 了 基本 MRF 模型 和 一 个 多 尺度 的 图 像 分 割 MRF 
模型 。 





图 7.1 基本 MRFs 以 及 一 个 用 于 图 像 分 割 的 多 尺度 四 叉 树 MRF 
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多 尺度 随机 场 也 被 做 了 很 多 的 改进 。 其 中 Cheng 等 使 用 类 别 概 率 树 模型 来 表示 一 个 
更 为 复杂 的 层 与 层 之 间 的 条 件 转移 概率 。 其 中 Cheng "等 在 层 间 使 用 一 个 分 类 概率 树 ， 
扩展 了 多 尺度 随机 场 模型 ,其 引入 了 一 个 更 为 复杂 的 转移 条 件 概率 。 这 样 在 上 层 就 可 以 使 
用 更 大 的 邻 域 ( 如 5X5)。 由 于 可 以 使 用 更 多 的 父 结 点 ,多 尺度 随机 场 能 够 捕捉 和 综合 更 为 
复杂 的 上 下 文 信息 。 另 外 , Wilson 等 中 扩展 了 每 个 结 点 的 邻 域 , 邻 域 中 既 可 以 包含 同 层 的 
HBAS ,也 可 以 包含 其 上 层 的 父 结 点 。 同 层 的 链接 可 以 描述 同 层 结 点 之 间 的 空间 关系 。 
固定 结构 的 四 又 树 多 尺度 随机 场 (The fixed structure of a quadtree multiscale random 
field) 往 往 会 导致 块 状 分 割 (Blocky Segmentation )"") 。 为 了 缓解 这 一 问题 ,Irving 等 在 
文献 [173] 中 提出 了 一 个 交 释 树 状 模型 。 层 中 的 每 个 结 点 对 应 的 图 像 区域 可 以 重合 。 这 样 
的 做 法 使 得 同一 层 中 的 空间 相 邻 的 结 点 就 有 更 大 的 可 能 性 拥有 一 个 共同 的 上 层 父 结 点 ,也 
能 很 好 地 减少 不 准确 分 割 的 问题 。 l 

MRF 模型 基于 很 强 的 条 件 独 立 性 假设 , 即 给 定 一 个 结 点 的 类 别 , 这 一 点 的 观测 变量 与 
其 他 结 点 的 观测 变量 互相 独立 。 对 于 图 像 分 割 ,这 个 假设 往往 无 法 成 立 。 为 了 弱化 这 一 假 
设 , 文 献 [165] 中 提出 双重 马尔 可 夫 随 机 域 模型 (Double Markov Random Filed, DMRF). 
文献 [166] 中 提出 对 偶 马 尔 可 夫 随 机 域 模型 (PMRF) ,方法 是 直接 假设 类 结 点 和 观测 结 点 的 
联合 随机 场 满 足 马尔 可 夫 特 性 。 虽 然 PMF 模型 较 传统 的 MRF 模型 具有 相对 比较 弱 的 条 
件 独 立 假设 ,但 是 描述 类 别 结 点 和 观测 结 点 的 联合 势能 函数 非常 繁琐 。 

CRF 模型 的 引入 ,从 根本 上 克服 了 MRF 的 局 限 性 。 作 为 一 个 判别 模型 ，CRF 允许 所 
有 的 类 结 点 和 所 有 的 观测 结 点 之 间 可 以 有 任意 的 连接 关系 。 初步 研 究 成 果 显 示 ,CRF 可 以 
成 功 地 用 于 分 割 图 像 。He 等 在 文献 L174， 175] 中 使 用 CRF 模型 来 分 割 静 态 图 像 。 通 过 引 
人 额外 的 隐 结 点 ,他 们 还 能 够 综合 地 利用 上 下 文 信息 (如 图 像 的 背景 环境 信息 )。 他 们 的 实 
验 结果 显示 , 较 之 MRF 模型 ,CRF 能 够 更 好 地 进行 图 像 分 割 。 在 文献 [L176] 中 ,Ren 等 使 用 
CRF 模型 来 进行 图 像 标 注 。 通 过 定义 额外 的 能 量 孙 数 , 他 们 在 CRF 模型 中 整合 了 多 种 信 
息 [ 如 相似 性 .连续 性 和 亲密 性 (Familiarity) 等 ]。 但 这 个 模型 的 缺点 在 于 , 它 用 一 个 层 来 连 
接 所 有 的 隐 结 点 ,而 实际 上 隐 结 点 可 能 表示 多 层 结构 化 的 信息 。 

CRF 模型 也 能 够 处 理 更 加 复杂 的 图 像 结 构 。 文 献 L177,178] 中 提出 一 个 多 层 树 状 CRE 
模型 ,对 不 同 的 尺度 层 中 的 类 别 结 点 加 上 一 致 性 的 约束 。 在 文献 L179] 中 ,Toyoda 等 提出 了 
能 够 综合 利用 图 像 局 部 及 全 局 空间 关系 约束 的 CRF 模型 。 其 中 全 局 关系 通过 一 个 全 局 互 
# pi BH (Pairwise Potentials) 来 实现 , 这 些 全 局 是 函数 能 充分 描述 全 局 的 场景 信息 。 这 种 自 
上 而 下 的 全 景 上 下 文 信息 ,可 以 有 效 地 校正 基于 局 部 图 像 的 标注 ,显著 地 提升 标注 效果 。 
图 7. 2 显示 了 一 个 用 于 目标 检测 和 分 割 的 CRF 模型 。 在 传统 的 CRF 模型 基础 上 , 它 引 入 

了 一 个 附加 的 隐 结 点 层 , 隐 结 点 层 {h} 用 来 表示 目标 物 的 不 

y 同 的 组 成 部 分 的 类 别 以 及 这 些 组 成 部 分 之 间 的 相互 关系 ， 
而 这 种 相互 关系 是 有 助 于 图 像 标 注 的 另 一 非常 重要 的 
信息 。 

对 于 图 像 分 割 , 贝 叶 斯 网 络 模型 能 被 用 来 表示 关于 图 
像 分 割 中 区 域 .边缘 和 观测 值 等 不 同 元 素 之 间 的 各 种 因果 
图 7.2 一 个 用 于 图 像 分 割 的 。 关系 的 先 验 知识 。 在 文献 [181] 中 ,Mortensen 等 基于 一 个 

PRL DLS CHIR 7 模型 ”两 层 的 贝 叶 斯 网 络 提出 了 一 个 半自动 的 图 像 分 割 技术 。 通 
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过 贝 叶 斯 网 络 来 构建 边缘 和 角 之 间 的 关系 ,对 图 像 分 割 加 上 了 一 些 简 单 的 连接 性 的 约束 。 
给 定 一 个 用 户 输 入 的 种 子路 径 , 他 们 使 用 最 小 路 径 生 成 树 (Minimum-path spanning tree 
Graph) 搜 索 发 现 最 可 能 的 目标 边界 。 在 文献 [182] 中 ，Alvarado 等 使 用 贝 叶 斯 网 络 模 型 来 
捕 提 一 个 场景 中 人 手持 物体 的 图 像 分 割 的 全 部 可 获得 的 信息 。 这 个 模型 可 以 将 图 像 中 的 高 
层 信 息 ， 如 可 能 的 人 手 位 置 , 和 底层 的 图 像 观测 信息 结合 起 来 ,推测 属于 人 手 区 域 的 概率 。 
Zhang A Ji cs9 等 引入 了 一 个 多 层 贝 叶 斯 网 络 模型 用 来 描述 图 像 的 区 域 , 边界 和 角度 之 间 
的 结构 化 的 因果 关系 。 这 个 模型 既 能 利用 物体 形状 的 局 部 约束 (如 平滑 型 和 关联 性 ) ,又 能 
利用 全 局 约束 , 同时 也 能 有 效 利用 用 户 输入 信息 。Feng 等 "中 把 贝 叶 斯 网 络 和 神经 网 络 结 
合 起 来 用 于 场景 分 割 。 在 这 个 应 用 中 , 神经 网 络 用 于 产生 图 像 类 别 的 尺度 概率 ,而 一 个 固 
定 结构 的 四 又 树 状 贝 叶 斯 网 络 模型 (BN-quadtree Model) 则 用 于 表示 类 结 点 的 先 验 分 布 。 
图 7.3 示 出 了 这 个 多 尺度 贝 叶 斯 网 络 模型 的 结构 。 


> X? 


Xi: 未 观测 到 的 类 别 A 





Y: 已 观测 的 彩色 图 像 
图 7.3 一 个 用 于 图 像 分 割 的 多 尺度 四 叉 树 BN 模型 


为 克服 四 叉 树 贝 叶 斯 网 络 的 固定 结构 带 来 的 缺陷 ，Todorovic 等 ”5 ， 提 出 了 一 个 动 
态 的 多 尺度 树 状 贝 叶 斯 网 络 模型 。 他 们 的 方法 能 够 同时 获得 最 优化 的 结构 ( 即 在 同 层 相 邻 
结 点 间 的 连接 ) 及 每 个 结 点 的 最 优 值 。 虽 然 实 验 结果 显示 了 该 算法 的 可 行 性 ,但 是 这 个 模型 
过 于 复杂 而 且 需 要 做 大 量 的 随机 变量 推算 。 

所 有 的 这 些 相 关 工 作 , 充 分 显示 了 贝 叶 斯 网 络 模 型 具有 很 强 的 能 力 来 整合 多 源 信息 ,并 
用 于 矫正 和 提高 图 像 分 割 或 标注 的 效果 。 


7.2 基于 概率 图 模型 的 检测 和 识别 


与 低级 别 的 图 像 分 割 任务 相似 ,概率 图 模型 已 经 成 功 应 用 到 目标 检测 和 识别 中 。 余 像 
目标 检测 是 发 现 特定 的 目标 (如 人 脸 ) 在 给 定 的 图 像 中 是 否 存 在 ,而 图 像 目标 识别 是 识别 对 
象 的 特定 实例 〈 如 乔治 布什 )。 对 于 目标 检测 ，AdaBoost 算法 "中 是 一 个 被 广泛 使 用 的 
方法 , 它 选择 少量 的 重要 的 视觉 特征 但 却 输出 多 个 高 效 的 分 类 器 。 最近 词 袋 模 型 (Bag of 
Words) 被 成 功 应 用 在 目标 识别 问题 上 ,其 目标 模型 的 学 习 是 通过 建立 一 个 局 部 属性 的 码 书 
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(Codebook) ,该 方法 忽视 了 目标 的 几何 信息 。 虽 然 这 些 方法 能 够 很 好 地 进行 目标 识别 , 然 
而 ,它们 却 要 求 大 量 的 训练 数据 ,并 且 在 学 习 过 程 中 不 容易 融合 先 验 或 相关 信息 。 由 于 训练 
过 程 中 没有 使 用 目标 的 几何 (Geometric) 信 息 ,一些 与 目标 本 身 无 关 的 信息 可 能 会 被 加 入 ， 
导致 模型 的 过 拟 合 (Over Fitting) 。 然 而 概率 图 模型 在 目标 检测 和 识别 中 的 应 用 可 以 克服 
这 些 问题 。 

使 用 MRF 模型 ,目标 检测 和 识别 可 看 作 是 一 类 图 像 标注 问题 "2 。DasGupta 40 提 
出 了 基于 MRE 模型 从 模糊 不 清 的 图 像 中 同时 复原 和 识别 目标 物体 的 方法 。 他 们 引入 了 部 
分 消息 传递 (Partial Message Propagation) 的 概念 ,任何 给 定 的 图 像 分 块 (Patch) 只 部 分 受 
近邻 影响 ,并 且 依 赖 于 两 个 近邻 间 的 空间 交互 关系 。 识 别 过 程 发 生 在 不 断 循环 的 复原 阶段 ， 
复原 阶段 帮助 其 减少 搜索 空间 。 基 于 MRF 的 识别 技术 在 给 定 手工 初始 化 时 ,取得 了 相当 
好 的 结果 。 然 而 ,由 于 缺乏 清楚 的 形状 模型 ,这 些 方法 在 自动 目标 识别 和 图 像 分 割 应 用 中 往 
往 会 失败 。Kumar 等 在 他 们 的 ObjCnutt 弛 工作 中 ,提出 了 一 个 用 于 目标 检测 的 贝 叶 斯 方 
法 ,这 个 方法 使 用 图 示 结 构 表 达 (Pictorial Structures (PS) Formulation) 和 MRFs 模型 一 起 
提供 物体 形状 的 先 验 知识 。 形 状 模型 (Shape Model) 提 供 了 一 套 潜在 的 变量 ,这 些 变量 将 倾 
向 于 某 种 物体 形状 的 分 割 。 对 于 表情 识别 和 动作 识别 ,Zhang0* Al Tong 等 "1 提出 了 使 用 
”DBN 模型 捕捉 在 人 脸 表情 (动作 ) 与 图 像 观 测 值 之 间 的 (Spatio-temporal) 空间- 时 间 关 系 。 
虽然 形状 先 验 知识 能 够 帮助 减少 分 割 错误 ,但 是 当 物 体 偏 离 标准 形状 模型 时 ,形状 模型 也 引 
人 了 分 割 误差 。 

为 了 识别 可 变形 的 目标 物体 ,生成 式 星 座 图 模型 (Generative Constellation Models) 被 
引入 到 形状 的 建 模 过 程 中 。 这 个 模型 首先 由 Burl 等 5 提出 ,在 这 个 模型 内 , 目标 物体 由 在 
可 变形 的 结构 (Deformable Configuration) 中 的 特征 部 分 所 表示 。 相 似 的 , Weber 等 0?2] 提 
出 了 将 一 个 目标 类 (Object Class) 表 示 为 一 类 由 刚性 部 分 群 组 成 的 可 变星 座 图 模型 (a 
Flexible Constellation of Rigid Parts), 其 中 目标 类 被 定义 为 具有 相同 特征 属性 部 分 群 
(Parts) 的 集合 或 相似 且 在 相似 空间 结构 存在 的 部 分 群集 合 。 星 座 图 (Constellation) 模 型 有 
几 个 优点 : 模型 清楚 地 表示 了 形状 的 变化 和 由 于 Occlusion 和 检测 器 误差 而 引起 的 属性 存 
在 与 否 的 随机 性 。 这 个 模型 被 Fergus 等 扩展 到 表示 外 观 的 变化 bs5 ,他 们 扩展 了 98s13285， 利 
用 该 模型 从 有 大 量 形状 变化 的 目标 物体 训练 数据 集中 进行 有 效 学 习 。Lio5 提出 了 一 个 增 
量 学 习 贝 叶 斯 网 络 的 方法 ， 其 从 101 个 变形 目标 物体 类 别 中 学 习 可 视 目 标 , 每 一 类 使 用 了 
少量 的 图 像 训 练 数据 。Loefft' 沾 等 对 于 目标 检测 和 定位 提出 了 一 个 生成 式 概率 模型 ， 其 可 
以 用 最 小 监督 方法 被 建立 起 来 。 他 们 的 临时 星座 图 模型 (Improvised Constellation Model) 
能 够 处 理 Occlusion 和 在 属性 特征 抽取 中 的 误差 问题 ,并 且 使 得 模型 以 图 像 中 的 部 分 群 数 
量 和 属性 数量 级 进行 线性 推理 。 

除了 生成 式 模型 ,判别 PGM 模型 也 已 经 被 广泛 应 用 在 目标 检测 和 识别 中 。 对 于 在 图 
像 中 检测 人 造 结 构 的 问题 ,判别 随机 场 (Discriminative Random Fields, DRFs) 被 用 来 建立 
类 别 变 量 之 间 高 层次 上 下 文 关系 。 关 联 A(X;,Y) 和 交互 势能 (I; ) 被 引入 进来 ,表示 近邻 区 
域 的 观测 和 交互 。 在 DRFs 框架 中 ,A(X;,Y) 用 Logistic Regression 判别 模型 建立 ,而 I; E 
为 代价 函数 用 来 惩罚 每 一 对 相 异 的 类 别 。 这 种 交互 形式 有 益 于 对 离散 的 观测 数据 进行 类 别 
平滑 分 段 。 然 而 ,由 于 DRFs 中 交互 势 函 数 的 额外 计算 量 ,使 得 其 比 MRF 计算 更 为 复杂 。 
Quattoni 等 0%1 对 于 基于 CRFs 的 目标 识别 提出 了 一 个 判别 模型 ,其 条 件 分 布 p(y|zx) 是 直 
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接 建 模 得 到 ,推理 和 参数 估计 使 用 标准 的 可 信和 度 传 播 算法 (Belief Propagation) 得 到 。 在 文 
献 [180] 中 ,作者 提出 了 一 个 复杂 的 CRF 模型 用 于 目标 检测 。 他 们 引入 一 个 额外 的 隐 含 层 
来 表示 被 检测 目标 各 部 分 的 位 置 。 目 标 各 部 分 与 目标 中 心 位 置 有 约束 关系 。 基 于 相似 的 模 
型 ,Winn 等 进一步 在 各 部 分 中 引入 了 布局 (Layout) 一 致 关系 ,用 以 在 二 维和 三 维 图 像 
中 0%"1 抽 识别 和 分 割 部 分 Occluded 的 目标 。Kumar 等 在 文献 [L199] 中 提出 了 一 个 两 层 的 
CRF 模型 ,这 个 模型 对 于 目标 类 别 分 类 既 能 够 捕捉 像素 对 的 上 下 文 信息 ,又 能 够 捕 提 长 范 
围 上 下 文 信息 。 


7.3 ”基于 概率 图 模型 的 目标 跟踪 


目标 跟踪 任务 是 对 视频 每 一 帧 中 的 一 个 对 象 或 多 个 对 象 (多 目标 跟踪 ) 进 行 定 位 。 不 同 于 
目标 检测 ,目标 跟踪 充分 利用 了 连续 视频 帧 中 物体 平滑 运动 的 特点 。 基 于 这 个 假设 ,目标 跟踪 
算法 减少 了 发 现 非 目标 的 概率 ,并 且 限 制 了 在 未 来 视频 帧 中 的 检索 区 域 。 尽 管 在 过 去 数 十 年 
间 , 目 标 跟踪 在 计算 机 视觉 领域 得 到 了 深入 的 研究 ,但 它 仍 然 是 一 个 具有 挑战 性 的 课题 **'*33]，。 

从 概率 角度 来 看 ,跟踪 是 一 个 (在 线 ) 实 时 滤波 问题 ,对 t 王 1,2,… ,估计 PCa | yo 
Zo), 这 里 x, 是 对 象 在 时 刻 上 的 状态 (假设 初始 状态 r BE), BAUME. RHR eR 
Soy 是 上 时 刻 的 图 像 帧 。 在 视觉 跟踪 中 ,基于 PGM 的 方法 往往 使 用 动态 模型 (如 一 阶 状 
态 一 空间 模型 ) ,描述 ({x,),{y,)) 的 联合 分 布 ,如 图 7.4 所 示 , 从 而 把 跟踪 问题 简化 为 状 
态 一 空间 模型 的 推理 "**]。 


1. 关节 式 链 物 体 跟踪 


在 关节 式 物体 跟踪 (Articulated Object Tracking) 领域 ,概率 图 模型 受到 了 极 大 的 关 
注 。 最 常见 的 一 个 例子 是 人 体 跟踪 。 人 体 跟 踪 就 是 基于 视频 中 的 图 像 特征 ,估计 出 二 维 或 
三 维 的 人 体 姿 势 (身体 各 部 分 关节 的 角度 和 位 置 ) 。 

在 文献 [224] 中 ,切换 动态 线性 系统 (SLDS) 被 用 来 刻画 诸如 人 体形 态 运 动 这 样 复杂 多 
样 的 动态 行为 。 为 了 处 理 动 态 变化 ,在 状态 变量 之 上 引入 了 离散 切换 变量 S=s ,…, sr, 如 
图 7.5 所 示 。 在 实际 应 用 上 ,SLDS 模型 的 推理 [ 即 P(S,XIY)] 只 是 近似 的 。 文 献 [225] 介 
AT 3 种 不 同 的 近似 方法 。 维 特 比 (Viterbi) 近 似 利用 了 PCS,X|Y)+PCX|S* ,Y) ,在 维特 
比 算法 中 ,S* 一 arg maxP(SIY)。 一 种 变化 推理 算法 将 SLDS 模型 分 解 为 上 层 的 隐 马 尔 可 
夫 模 型 (HMM) 和 下 层 的 线性 动态 系统 。 最 后 一 种 归纳 伪 贝 叶 斯 算法 试图 将 模型 拆 解 成 较 
少 ( 固 定数 目 ) 部 分 的 混合 物 。SLDS 模型 表现 出 优 于 简单 动态 模型 的 跟踪 稳定 性 ,在 处 理 
包含 多 种 类 型 的 混合 运动 时 也 很 有 效 。 


oo if f 
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图 7.4 用 于 目标 跟踪 的 一 阶 状态 一 空间 模型 图 7.5 切换 线形 动态 系统 
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人 体 是 一 个 典型 的 非 刚性 关节 式 物 体 (Articulated Object) 的 例子 。 关节 式 物 体 由 连接 
物 和 关节 构成 的 ,因此 使 用 图 模型 可 以 自然 地 表达 人 体 和 姿态 检测 时 的 关联 制约 关系 。 自 
从 早期 的 工作 5227'2 开 始 , 各 种 生成 式 概率 图 模型 就 已 经 受到 研究 者 们 的 欢迎 ,并 且 复 杂 程 
度 逐 渐 增加 5 ,包括 处 理 姿势 和 视角 变化 的 能 力 522 。 在 文献 L[226] 中 ,人 体 被 表示 成 
一 个 松散 连接 的 肢体 集合 。 通 过 双 马 尔 可 夫 模 型 (Pairwise MRF) (图 7. 6) 建 立 肢体 三 维 姿 
态 ( 如 身体 各 部 分 的 位 置 和 方向 ) 的 条 件 独立 关系 ,其 中 边缘 势 函 数 (the Edge Potential 
Function) (空间 或 时 间 上 ) 被 定义 为 一 个 高 斯 混合 模型 , 它 的 参数 通过 EM 算法 从 基准 运 
动 的 捕捉 数据 中 获得 。 模 型 通过 非 参数 信息 传播 ( 即 通过 采样 粒子 数据 近似 消息 ) 进 行 推 
FHC) 。 这 种 方法 的 主要 优点 是 利用 从 各 身体 部 位 检测 器 获得 的 自 下 而 上 的 信息 ,将 搜索 
空间 的 复杂 性 减少 到 肢体 数目 的 线性 空间 。 对 于 上 半身 跟踪 问题 , Zhang 等 纪委 提 出 了 用 动 
态 贝 叶 斯 网 络 建立 所 有 可 能 的 身体 动作 。 他 们 在 模型 中 引 人 了 各 种 上 肢 动 作 的 通用 物理 知 
识 和 解剖 学 的 关联 和 限制 关系 ,其 不 同 于 大 多 数 现 有 的 上 肢 运动 模型 ,该 模型 可 以 跟踪 身体 
任何 一 种 动作 ,而 不 只 是 一 些 典型 的 动作 。 





图 7.6 用 于 肢体 建 模 的 图 模型 


2. 判别 式 的 目标 跟踪 方法 


不 同 于 生成 式 的 目标 跟踪 方法 ,判别 式 的 跟踪 方法 直接 优化 跟踪 器 的 预测 精度 , BD 
P(X|Y) ,这 是 最 可 取 的 方法 。Ross 等 2] 提出 了 一 个 具有 隐 变 量 的 条 件 模型 ,这 些 隐 变 量 
可 以 进行 灵活 地 切换 某 个 特征 属性 。 该 判别 模型 允许 某 些 可 以 提高 准确 性 的 相关 属性 特征 
包含 到 模型 训练 中 来 。 这 种 方法 已 经 成 功 应 用 于 复杂 轨迹 的 目标 跟踪 。Taycher %03 
了 应 用 一 个 类 条 件 随机 场 (CRF-like) 判 别 模型 进行 目标 跟踪 ,把 连续 状态 空间 离散 成 网 
格 。 提 出 的 网 格 滤波 算法 几乎 可 以 实时 进行 准确 的 目标 跟踪 。 然 而 ,这 种 基于 网 格 的 方法 
通常 需要 大 量 的 姿态 数据 作为 先 验 知识 以 实现 良好 的 近似 。 

文献 [239] 提 出 的 有 向 条 件 概 率 模型 已 经 被 扩展 到 连续 空间 的 三 维 姿态 估计 问题 3]， 
基于 图 7.7(a) 所 示 的 图 形 结构 ,其 条 件 分 布 被 分 解 成 局 部 预测 器 PCr |z,_1,y,)。 他 们 通 
过 先 验 混合 贝 叶 斯 网 络 建立 局 部 预测 器 ， 因此 命名 为 混合 贝 叶 斯 探测 器 马尔 可 夫 模 型 
(Bayesian mixture of experts Markov model, BMSE)。 他 们 对 模型 的 时 序 推理 提出 了 一 个 
混合 密度 传播 框架 (Mixture Density Propagation Framework) 。 

除了 判别 模型 , 另 一 种 提高 跟踪 准确 性 的 方法 是 判别 地 学 习 生 成 式 模型 。Kim 和 
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Pavlovic[25 已 经 证 明 , 即 使 像 简 单 的 线性 模型 SSM, 通 过 复杂 的 判别 式 学 习 也 能 大 大 提高 
跟踪 精度 。 这 里 有 两 种 学 习 算 法 被 提出 来 进行 判别 地 学 习 生 成 式 模型 : 条 件 最 大 似 然 
(CML) All Slice-wise 条 件 最 大 似 然 (SCML) 。 不 幸 的 是 ,两 者 的 学 习 E tr PRB A E h K 
数 Convex， 导 致 模型 对 初始 参数 和 优化 过 程 极 其 敏感 。 为 了 解决 上 述 问 题 ,一 种 新 的 无 向 
判别 图 模型 一 一 条 件 状态 空间 模型 (CSSM) [图 7.7(b)] 被 提出 来 229 。CSSM 在 性 质 上 类 
似 CRF ,在 整个 测量 序列 上 以 状态 为 条 件 , 同 时 利用 问题 的 序列 结构 。CSSM 的 参数 学 习 
是 一 个 带 有 凸 可 行 约束 的 凸 函数 优 化 的 例子 ,以 增强 密度 可 积 性 。 他 们 提出 的 推理 算法 远 
远 快 于 卡尔 曼 滤波 ,同时 允许 模型 有 大 量 的 测量 属性 。 


图 7.7 BM’E 和 CSSM 模型 


3. 多 目标 跟踪 


多 目标 跟踪 的 目的 是 定位 未 知 数量 的 (可 能 是 随时 间 变 化 ) 多 个 对 象 。 多 目标 跟踪 通常 
比 单 目标 跟踪 更 具 挑 战 性 , 因为 需要 同时 估计 跟踪 器 的 状态 和 跟踪 器 测量 值 的 关联 
(Measurement Association) 。 在 基于 概率 图 模型 的 多 目标 跟踪 方法 中 ,除了 状态 变量 和 观 
测 变量 外 ,还 存在 跟踪 器 的 关联 变量 ,其 辅助 跟踪 器 进行 特别 的 观测 。 例 如 ,Khan 等 在 文 
献 L242] 使 用 了 文献 L243] 中 的 联合 粒子 过 滤器 (Joint Particle Filters) , 其间 目标 物体 的 交 
互 是 通过 MRF 模型 建 模 ,该 MRF 模型 的 势能 函数 计算 两 个 跟踪 器 之 间 重 到 像素 的 数目 ， 
以 避免 物体 平 压 变 形 , 这 是 从 如 昆虫 这 样 的 群居 生物 中 观察 到 的 性 质 。 最 近 , Yu 等 2 提 
出 了 一 种 联合 表示 跟踪 状态 变量 和 关联 变量 的 概率 图 模型 。 该 模型 可 以 分 解 成 关联 先 验 模 
型 和 似 然 模 型 。 前 者 是 由 具有 异 或 指标 器 (the Exclusive-OR Indicator) 势 能 的 双 马 尔 可 夫 
RA (Pairwise MRF) 建 模 。 这 个 框架 具有 很 强 的 计算 能 力 , 因 为 它 允 许 学 习 过 程 以 分 布 式 
的 方式 完成 。 多 人 上 脸 特征 跟踪 是 另 一 个 有 趣 的 应 用 。 经 过 个 体 特 征 跟 踪 以 后 ,Su 和 
Huang55 使 用 了 信息 传播 来 推断 空间 域 中 的 每 个 人 脸 特 征 轮廓 ,每 个 轮廓 中 的 人 脸 特 征 关 
系 是 从 拥有 大 量 人 脸 表情 数据 的 数据 库 中 学 习 得 到 的 。 


7.4 基于 概率 图 模型 的 行为 建 模 和 识别 

从 静态 的 概率 图 模型 到 不 同类 型 的 动态 概率 图 模型 都 被 广泛 用 到 人 类 行为 建 模 问题 。 
在 本 节 中 ,回顾 不 同 概率 图 模型 的 行为 建 模 技术 ,并 比较 行为 识别 中 的 静态 和 动态 模型 。 

1. 静态 模型 


贝 叶 斯 网 络 及 其 相关 变型 常常 被 用 来 描述 某 个 行为 若干 基 本 元 素 之 间 的 层次 关系 。 典 
型 地 ,一 个 3 层 BN 被 用 来 描述 图 像 特征 、 基 元 行为 以 及 复杂 事件 之 间 的 关系 。 对 于 场景 识 
别 ,Hongeng 等 2 提出 了 一 种 分 层 BN (Hierarchical BN) 来 描述 图 像 特征 、 子 场景 和 主场 
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景 之 间 的 关系 。 对 于 动作 识别 ,Filipovych 等 性 1 使 用 一 个 BN 模型 来 描述 表演 者 和 物体 之 
、” 间 的 关系 ,如 图 7. 8 所 示 。 该 模型 包括 4 种 类 型 的 结 点 ,即时 序 
状态 结 点 (M) .静态 状态 结 点 (S) 及 其 相应 的 观测 值 结 点 (Ovw 
和 Os) ° 
各 种 贝 叶 斯 网 络 诸如 Laten Dirichlete Allocation (LDA), 
Hierarchical Dirichlet Process (HDP) 和 Probabilitic Laten 
Semantic Analysis(PLSA) 都 已 被 广泛 地 应 用 到 自然 语言 处 理 
- ` 一 ”中 。 由 于 人 的 行为 结构 可 以 很 容易 地 用 语言 处 理 中 的 概念 进行 
图 7.8 表演 者 -物体 贝 叶 斯 表示 ,如 基 元 动作 类 似 于 视频 单词 (Word) 动作 类 似 于 子 主题 
网 络 模型 结构 (Sub-topic) ,行为 类 似 于 主题 (Topic), 因此 ,这 些 模型 能 够 自 
然而 然 地 被 扩展 到 行为 建 模 和 识别 中 。Wang 等 “1 利用 LDA 和 HDP 建立 模型 来 描述 视 
觉 特征 、 基 元 行为 与 行为 这 些 不 同 层级 的 行为 之 间 的 关系 (利用 基 元 行为 之 间 的 交互 )。 不 
同 层次 之 间 ( 如 特征 与 动作 之 间 、 动 作 与 行为 之 间 ) 的 定量 关系 采用 多 项 分 布 进行 描述 。 
Wang 等 在 文献 L[249] 中 也 提出 了 类 似 的 模型 用 于 识别 未 校准 多 摄像 头 视频 中 的 行为 。 
PLSA 已 被 用 来 分 析 一 个 动作 中 同 现 的 基本 动作 ,一 项 行为 中 的 同 现 动作 。Niebles X 
献 [250] 中 提出 了 一 个 用 于 行为 识别 的 PLSA 模型 ,其 层次 结构 分 为 3 层 : 特征 属性 ( 单 
词 ) 动作 (潜在 主题 Latent Topic) 和 行为 (主题 ) 。 而 文献 [251] 中 提出 了 一 个 稍微 不 同 的 
方法 ,其 中 间 层 描述 人 体 的 不 同 部 位 (而 不 是 基本 的 动作 ) ,而 比 它 低 一 层 的 是 身体 部 位 的 量 
化 特征 。 


2 动态 模型 


(1) HMM 及 其 变型 

继 成 功 地 被 应 用 到 语音 识别 上 以 后 , HMM 又 被 广泛 用 于 视频 行为 建 模 。HMM 中 的 
隐 结 点 状态 变量 代表 一 个 动作 分 解 而 成 的 基 元 动作 ,而 隐 结 点 的 转移 概率 代表 了 各 个 动作 
的 动态 变化 概率 。 观 测 结 点 提供 了 基 元 动作 图 像 属 性 的 测量 值 。Zhang 等 "提出 了 一 种 
半 监 督 HMMs 用 于 非 寻 常事 件 的 检测 。 这 个 模型 分 为 两 个 层次 ,其 中 基 元 事件 (动作 ) 由 
若干 具有 最 小 持续 时 间 约 束 的 子 隐 马尔 可 夫 模 型 建 模 ; 上 层 活动 被 建 模 为 一 个 遍历 的 K 类 
HMM 模型 ,其 中 隐 状 态 是 基 元 事件 (动作 ) 。 在 Ivanov 的 工作 中 [3 ,低层 次 的 基 元 行为 
(动作 ) 的 检测 也 使 用 了 一 个 标准 的 HMM 模型 。 

为 了 克服 基本 隐 马 尔 可 夫 模 型 的 局 限 性 ,研究 者 提出 了 一 些 新 的 HMMs 模型 及 其 变 
型 。 为 了 解决 图 像 特 征 的 高 维度 问题 ,多 观测 变量 的 隐 马 尔 可 夫 模 型 (MOHMMD)559 [如 
图 7.9(b) 所 示 ] 被 提出 来 以 分 解 观测 空间 ,该 模型 假设 在 给 定 隐 状 态 变量 的 条 件 下 ,不同 的 
观测 结 点 变量 是 相互 条 件 独立 的 。 通 常 这 需要 对 图 像 特征 进行 仔细 的 检查 ,以 确保 该 项 假 
设 对 于 行为 识别 是 有 效 的 。 为 了 表示 多 个 实体 之 间 的 交互 关系 ,Oliver 等 在 文献 [255] 中 使 
用 了 耦合 的 HMM(CHMM) 建 立 实体 之 间 的 交互 关系 。 正 如 图 7. 9(c) 所 示 那 样 ,CHMM 
包括 了 几 个 HMMs, 耦 合 的 隐 状 态 结 点 代表 了 对 象 之 间 的 相互 交互 。 不 同 于 CHMM 模 
AY, Xiang 等 52 提出 了 动态 多 链接 隐 马 尔 可 夫 模 型 (Dynamic Multi-Linked-Hidden Markov 
Model, DML-HMM, 如 图 7. 9(d) 所 示 ) ,该 模型 对 一 个 动作 中 的 多 目标 交互 关系 进行 建 模 。 
DML-HMM 和 CHMM 都 是 通过 各 组 成 HMM 之 间 结 点 间 时 序 的 链接 来 耦合 各 组 成 
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HMM, DML-HMM 和 CHMM 的 主要 区 别 是 ,DML-HMM 可 以 自动 发 现 必 要 的 各 组 成 
HMM 之 间 的 交互 链接 ,而 CHMM 则 进行 完全 的 耦合 链接 ,所 以 ,DML-HMM 减少 了 元 余 
链接 ,提供 更 优化 的 状态 空间 分 解 。 这 使 得 DML-HMM 对 群体 动作 和 行为 建 模 时 具有 更 
可 控 的 计算 量 。 此 外 ,由 于 行为 建 模 的 观测 数据 往往 带 有 噪声 ,一 个 具有 较 少 参数 的 状态 空 
间 分 解 能 在 训练 阶段 更 好 地 对 统计 分 布 进行 估计 。 





(c) CHMM (d) DML-HMM (e) LHMM 


图 7.9 基本 HMM 及 其 变型 


为 了 在 一 个 行为 模型 中 表示 多 种 行为 ，HMM 的 不 同 扩展 模型 被 提出 来 。 层 次 化 的 
HMM 模型 (LHMM) ,如 图 7. 9(e) 所 示 , 包含 多 层 并 行 运行 的 HMM 模型 ,低层 产生 高 层 
的 观测 值 ,底层 是 图 像 的 观测 值 。Oliver 等 在 文献 [257] 中 第 一 次 运用 了 两 层 的 LHMM 识 
别 多 级 行为 。 该 模型 上 层 构 建行 为 中 构成 动作 的 转移 关系 ,底层 构建 基 元 动作 之 间 的 转移 
关系 。 开 关 隐 半 马 尔 可 夫 模 型 (SHSMMD) 如 图 7. 10 所 示 ,是 由 Duong 等 提出 来 ”进行 多 
层 行 为 识别 的 ,可 以 被 视 作 LHMM 的 扩展 。 其 底层 使 用 隐 半 马尔 可 夫 模 型 来 表示 基 元 行 
为 及 其 持续 时 间 ; 顶层 表示 一 个 高 层次 的 行为 序列 ,这 些 高 层次 的 行为 是 由 基 元 行为 序列 
构成 。 因 此 ,可 以 把 顶层 隐 状 态 看 作 是 底层 模型 的 开关 因子 。 层 次 化 (Hierarchical) HMM 
(HHMM) 在 多 级 行为 识别 中 也 是 一 种 流行 的 整合 动作 模型 和 行为 模型 的 隐 马 尔 可 夫 模 
型 。 在 HHMM 中 ,每 个 状态 变量 被 认为 是 自 包 含 (Self Contained) 概 率 模型 。 更 精确 地 
说 ,每 个 状态 自身 就 是 一 个 HHMM( 或 HMM) 。 这 意味 着 ,HHMM 的 状态 包含 序列 的 观 
测 变 量 ,而 不 是 如 标准 的 HMM 那样 包含 一 个 观测 变量 。Lv 等 ”使 用 动作 网 络 (Action 
Net) 来 构建 多 层 的 行为 模型 ,这 种 建 模 方式 显示 出 了 动作 网 络 的 状态 转移 图 ,因此 该 模型 
本 质 上 仍 是 一 个 层次 化 HMM。 在 动作 网 络 中 ,Viterbi 路 径 搜索 方法 被 采用 来 推测 视频 序 
列 中 的 关键 姿态 .动作 和 行为 。 

最 后 ,Hongeng 等 56 用 概率 有 限 状 态 机 (Probabilistic Finite-State Machine, PFSM) # 
立 子 场景 (动作 ) 和 场景 (行为 ) 之 间 的 关系 ,该 模型 可 以 处 理 交 叉 动 作 的 识别 。 改 进 的 
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Viterbi 方 法 用 来 推理 场景 。 为 了 处 理 同 样 的 问题 , Shi OO 提出 了 一 个 传播 网 络 . 
(Propagation Networks) 来 表示 人 类 行为 ,该 模型 实际 上 是 一 个 FSM 的 多 层次 化 扩展 。 

(2) 广义 动态 贝 叶 斯 网 络 

所 有 的 HMM 模型 都 可 以 被 视 为 特殊 的 动态 贝 叶 斯 网 络 (DBN) 。 虽 然 HMM 的 某 些 
变型 模型 可 以 表示 行为 识别 中 不 同 对 象 之 间 的 某 类 交互 关系 ,但 是 这 些 交互 关系 是 被 这 些 
HMM 变型 模型 的 特定 结构 所 限制 的 。 相 比 之 下 ,动态 贝 叶 斯 网 络 能 够 表示 不 同行 为 实体 
之 间 更 广义 的 因果 关系 ,这 些 关系 既 可 以 是 在 同一 层次 之 内 的 ,也 可 以 是 在 不 同 层次 之 间 
A. Wu 等 在 文献 [L261] 提 出 了 一 个 DBN 模型 ,其 结合 RFID 和 视频 数据 联合 推断 最 可 能 
的 行为 和 目标 对 象 类 别 。 如 图 7. 11 所 示 , 该 模型 包括 3 个 层次 : 行为 级 、 目 标 对 象 级 和 观 
测 级 (RFID 和 视频 观测 值 )。 然 而 ,该 模型 没有 考虑 同一 级 不 同 实 体 之 间 的 关系 。 








图 7. 10 开关 隐 半 马尔 可 夫 模 型 7.11 用 于 行为 识别 的 DBN 模型 


Laxton 等 在 文献 [262] 中 的 DBN 模型 使 用 层级 结构 ,同时 表示 不 同 层级 之 间 和 同一 层 
级 内 的 关系 。 每 一 项 行为 是 由 一 个 基 元 行为 序列 构成 ,而 其 中 一 些 基 元 行为 可 以 分 解 成 一 
个 基本 体 (Primitives) 集 。 一 种 基于 目标 物体 的 层次 结构 被 用 来 观测 基本 体 及 其 他 不 可 分 
解 的 基 元 行为 的 各 种 状态 。 该 模型 没有 采用 隐 状 态 来 代表 每 一 个 动作 , 而 采用 一 个 隐 结 点 
来 表示 一 个 基本 的 动作 。 通 过 这 种 方式 ,他 们 可 以 更 加 清楚 地 建立 不 同 动作 之 间 的 交互 
关系 。 

(3) 判别 式 模型 

除了 生成 式 (Generative) 的 概率 图 模型 如 HMM 和 DBNs, 判 别 式 (Discriminative) 的 
概率 图 模型 也 被 应 用 到 行为 建 模 中 。Vail 等 Cs 采用 了 线性 链 CRF[ 图 7. 12(a)] 实 现 动作 
识别 。 作 为 与 标准 HMM 模型 相对 应 的 判别 式 模型 ,线性 链 CRF 在 特征 属性 不 满足 相互 
独立 性 假设 时 显示 了 其 优势 。 为 了 在 模型 中 表示 多 目标 物体 间 的 交互 关系 ,Wang 等 C69 提 
出 了 因子 CRF(FCRF) 模 型 。 如 图 7. 12(b) 所 示 ，FCRF 有 多 条 由 隐 结 点 构成 的 线性 链 ,不 
同 链 上 同一 时 刻 的 结 点 之 间 相 互 连 接 (FCRF has multiple linear chains of hidden nodes 
with connections between cotemporal nodes) ,这 人 允许 FCRF 表示 分 布 式 的 隐 结 点 及 其 它们 
之 间 的 相互 作用 关系 。Shi 等 5 提出 了 一 个 半 马 尔 可 夫 模 型 (Semi-Markov Model) 来 建 模 
人 的 动作 。 半 马尔 可 夫 模 型 本 质 上 是 条 件 随机 场 (CRF) 的 扩展 。 上 述 CRF 模型 及 其 扩展 
都 只 是 限于 单 级 行为 (动作 ) 的 识别 , Truyen" 等 建 出 了 增强 的 马尔 可 夫 随 机 森林 
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(Markov Random Forests,MRF) 并 将 其 应 用 于 多 层次 行为 识别 。 他 们 使 用 的 模型 实际 上 
是 一 个 隐 动 态 条 件 随机 场 (Hidden Dynamic Conditional Random Field , DCRF) (图 7. 13). 
该 模型 底层 建立 基本 动作 模型 ,上 层 描述 高 级 别 的 行为 。Boosting 算法 被 采用 来 学 习 势 能 


函数 中 的 参数 。 





(a) 
7.12 线性 链 CRF 和 因子 条 件 随 机 场 


7.13 隐 动 态 条 件 随 机 场 


第 8 Fi 
贝 叶 斯 网 络 在 电信 个 人 信用 风险 分 析 中 的 应 用 


信用 风险 评估 是 经 济 领域 中 的 一 种 分 类 决策 问题 。 随 着 我 国 社会 经 济 的 发 展 ,信用 危 
机 在 各 行 各 业 日 益 凸现 。 尤 其 近年 来 ,在 电信 和 领域 ,每 年 电信 用 户 欠 费 的 增长 率 高 达 20% , 
远 高 于 收入 的 增长 率 , 用 户 欠 费 造成 的 通信 部 门 损失 超过 200 亿 元 人 民 币 ,严重 影响 了 电信 
企业 正常 经 营 和 发 展 。 虽 然 全 国 各 级 电信 公司 先后 建立 了 用 户 话费 和 信用 额度 控制 与 管理 
的 相应 机 构 ,但 是 ,真正 对 客户 信用 风险 进行 深入 地 分 析 并 提供 科学 、 准 确 的 评估 模型 却 很 
少 , 某 些 地 方 还 出 现 了 一 刀 切 和 名 不 副 实 的 现象 ,给 信用 良好 的 用 户 带 来 一 些 不 便 , 致 使 客 
户 满 意 度 下 降 和 用 户 的 流失 。 因 此 ,我国 的 电信 运营 业 人 迫切 需要 进行 用 户 信用 评估 研究 , 建 
立 科学 合理 的 评估 模型 。 

但 是 ,由 于 目前 我 国 的 电信 客户 信用 评估 工作 处 于 起 步 阶 段 ,评估 体系 和 技术 方法 远 未 
成 熟 , 大 量 带 有 信用 风险 类 标签 的 历史 客户 数据 并 不 存在 ,因此 通过 传统 的 分 类 算法 建立 信 
用 风险 评估 模型 来 预测 新 客户 的 信用 风险 并 不 可 行 。 目 前 ,为 了 评价 客户 的 信用 风险 ,只 能 
由 领域 专家 手工 评价 \ 标 注 客户 数据 ,这 是 件 极 其 耗 时 和 代价 昂贵 的 事情 。 

基于 以 上 背景 ,本 章 介 绍 如 何 应 用 主动 学 习 的 贝 叶 斯 网 络 建立 客户 信用 度 评分 模型 . 客 
户 信用 等 级 评估 模型 ,以 及 应 用 基于 半 监 督 主动 学 习 的 动态 贝 叶 斯 网 络 来 建立 客户 信用 风 
险 行为 演化 模型 。 实 验 结果 证 明 ,基于 主动 贝 叶 斯 网 络 的 信用 风险 评估 模型 准确 率 高 ,使 用 
的 带 类 标签 训练 数据 少 , 这 有 效 解 决 了 人 工 评 估 和 标注 客户 数据 的 工作 量 , 并 为 客户 的 信用 
评估 机 制 和 市 场 营 销 决策 提供 了 科学 的 依据 。 


8.1 电信 客户 信用 风险 评估 概述 


在 电信 企业 的 决策 支持 系统 中 ,以 中 国 移动 为 例 ,用 于 评价 客户 欠 费 风险 的 指标 称 为 
信用 度 ,信用 度 通常 是 0 一 100 之 间 的 连续 值 ,以 便 对 客户 信用 状况 进行 量化 。 信 用 度 已 成 
为 进行 客户 消费 情况 分 析 、 客 户 定位 分 析 、 客 户 风险 系数 分 布 分 析 、 经 营 风险 分 析 及 客户 其 
诈 行 为 分 析 的 一 个 重要 指标 。 但 由 于 目前 缺乏 合适 的 信用 度 计算 算法 ,客户 的 信用 度 主 要 
还 是 凭借 经 验 人 为 分 配 。 

北京 邮电 大 学 计算 机 科学 与 技术 学 院 的 张 玉 洁 教师 针对 客户 申请 时 的 初始 信用 度 计算 
作 了 研究 。 武 汉 大 学 电子 信息 学 院 的 徐 继 生 协 同 广东 移动 珠海 分 公司 的 王道 恒 等 对 电信 客 
户 的 信用 度 分 配 作 了 研究 ,他们 都 采用 了 遗传 算法 和 多 元 线性 判别 ,只 是 各 自选 择 的 评估 指 
标 有 所 区 别 。 

在 这 些 研 究 工 作 中 ,有 采用 客户 的 基本 信息 如 性 别 、. 年 龄 .职业 ,学历 .收入 .婚姻 等 静态 
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属性 对 应 某 个 规则 进行 分 配 取 值 ， 有 的 除了 客户 静态 属性 外 还 使 用 了 一 些 用 户 的 行为 属 
性 , 某 个 客户 的 这 些 属性 值 之 和 即 是 其 信用 度 , 即 
C= SS (8.1) 


式 中 ,C 为 用 户 信 用 度 评分 ; a; 为 第 i 种 属性 的 第 7 种 值 的 权 值 ; NAKAA N 种 属性 ; M: 
为 第 i 种 属性 共有 M, 种 可 能 的 量化 取 值 ; &; 为 决定 某 个 用 户 第 i 种 属性 的 取 值 ; 8 为 一 个 
阶 跃 函数 ,其 取 值 为 
(wb) = 05 Ca— RAVE (8. 2) 
通过 遗传 算法 的 计算 ,能 够 得 到 多 组 解 ( 图 8. 1), 供 领域 专家 参考 和 进行 选择 ,以 解 
2175431 为 例 ,解释 一 下 其 信用 度 分 配 值 的 含义 。 


1276543,1376542,1376543,2365431,1276542,2176541,237542,2376541,2175431， 
3174321,3176541,3276431,3175421,3165431,3175431. 


图 8. 1 遗传 算法 计算 得 到 的 各 属性 取 值 的 多 组 解 


车 属性 1 是 性 别 , 属 性 取 值 分 别 是 男 、 女 , 则 对 应 的 信用 度 分 配 值 Valuel1,1]=2, 
Value[1,2]=1. 属 性 2 是 学 历 , 属性 取 值 分 别 是 研究 生 、 大 学 本 科 、 大 专 、 中 专 或 高 中 、 其 
他 ,对 应 的 信用 度 分 配 值 是 Valuel2,1]=7,Value[2,2]=5,Value[2,3]=4, Value[2,4]= 
3、Value[2,5] 二 1。 根 据 这 个 解 , 利用 初始 信用 度 计算 公 式 得 出 任 一 位 客户 的 初始 信用 度 。 
若 一 客户 是 男性 ,研究生 , 则 该 客户 的 初始 信用 度 为 9。 

那么 以 上 的 研究 在 一 定 程 度 上 克服 了 信用 评分 过 程 中 属性 权 值 分 配 的 主观 性 。 但 存在 
以 下 几 点 问题 ; 

1) 信用 度 计算 公式 仍然 有 很 强 的 主观 性 

从 他 们 的 研究 结果 来 看 ,信用 度 的 计算 属于 演绎 信用 评分 ,仍然 是 半 客 观 的 ,获得 权 值 
是 客观 的 ,但 是 属性 值 的 权 值 分 配 仍然 是 主观 决定 的 , 即 哪些 解 对 应 哪些 值 。 

2) 评分 指标 集 很 不 完善 

对 客户 静态 信息 与 客户 信用 风险 的 相关 性 没有 进行 具体 的 统计 分 析 , 使 得 评估 指标 集 
存在 很 多 无 关 和 多 余 的 指标 参与 计算 ,造成 所 建 模 型 使 用 的 数据 量 大 、 训 练 时 间 长 .模型 复 
杂 。 另 外 ,在 进行 信用 度 计算 时 虽然 从 100 多 种 用 户 行 为 属性 中 送 选 出 10 余 种 重要 属性 纳 
入 预测 和 评估 ,但 经 遂 选 发 现 其 行为 属性 还 很 不 充分 ,补充 某 些 属 性 或 属性 组 合 是 必要 的 。 
因此 ,需要 对 信用 评估 指标 体系 进行 相关 性 分 析 ,以便 找 到 与 信用 风险 相关 性 密切 的 属性 参 
与 建 模 运算 。 

3) 信用 评分 模型 准确 率 不 高 

由 于 线性 模型 的 局 限 性 ,不 能 很 好 地 逼近 实际 情况 ,有 必要 采用 更 精确 的 模型 。 

4) 对 于 客户 不 同 发 展 时 期 的 信用 评分 模型 没有 区 别 对 待 

客户 不 同 发 展 时 期 的 信用 评分 的 指标 与 计算 模型 是 不 同 的 。 例 如 ,新 客户 的 信用 评估 
指标 与 老 客 户 的 信用 评分 指标 就 有 所 区 别 , 其 指标 之 间 的 关系 也 有 可 能 不 同 , 因 此 ,两 个 模 
型 应 分 别 建立 。 

5) 缺乏 对 客户 信用 风险 的 定性 分 析 

目前 的 信用 度 评估 工作 集中 于 对 信用 度 的 定量 分 析 , 但 是 通过 对 金融 领域 客户 信用 评 
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估 的 认识 认为 ,为 了 更 好 地 进行 信用 决策 和 风险 管理 ,需要 对 客户 信用 风险 状态 进行 评级 区 
分 。 通 过 信用 评级 ,有 助 于 对 客户 群 行为 特征 的 区 分 ,更 好 地 预测 客户 未 来 的 信用 风险 及 企 
业 的 损益 程度 ,从 而 建立 预警 机 制 。 再 完美 的 信用 风险 模型 也 仅仅 是 进行 信用 风险 度量 和 
管理 的 工具 ,任何 复杂 的 数量 分 析 都 不 能 代替 风险 管理 中 的 经 验 判断 ,因此 有 必要 对 客户 信 
用 进行 定量 与 定性 相 结合 的 研究 。 

6) 应 采用 基于 历史 数据 的 实验 信用 评分 方法 进行 信用 度 评估 建 模 

从 单个 用 户 的 角度 来 看 ,各 种 用 户 行为 属性 似乎 是 千差万别 、 彼 此 没有 联系 的 。 但 从 统 
计 学 的 角度 来 看 ,不 同类 型 用 户 行为 属性 的 特征 是 有 关联 的 ,存在 统计 意义 上 的 规律 性 。 为 
了 能 够 区 分 用 户 的 种 类 ， 就 需要 找到 一 些 用 户 行为 属性 及 其 组 合 ,达到 一 定 标准 的 用 户 是 
高 信用 度 ( 非 欠 费 ) 用 户 , 达 不 到 标准 的 则 是 低 信用 度 ( 欠 费 或 可 能 欠 费 ) 用 户 。 用 户 的 信用 
度 受 多 种 因素 的 影响 ,目前 尚 不 能 对 这 一 问题 在 理论 上 做 出 圆满 的 解释 。 处 理 这 一 问题 , 通 
常 采用 数理 统计 学 的 方法 , 即 把 信用 分 析 看 成 是 数据 挖掘 中 的 一 种 分 类 问题 。 在 目前 的 理 
WRAP, 它 可 能 是 最 有 效 的 方法 , 也 是 国际 学 术 界 视 为 主流 的 方法 。 

考虑 到 信用 评估 问题 实际 上 是 数据 挖掘 中 的 分 类 问题 ,那么 鉴于 以 下 几 点 情况 , 贝 叶 斯 
网 络 理论 作为 信用 评估 建 模 的 分 类 算法 是 非常 合适 的 。 

。 电信 客户 信用 风险 状态 具有 随机 性 和 不 确定 性 。 电 信和 客户 的 行为 状态 存在 着 很 大 的 
不 确定 性 ,其 出 现 和 变化 不 能 通过 简单 的 物理 规律 加 以 确定 。 例 如 ,给 定 两 条 客户 数 
据 , 它 们 看 起 来 极为 相似 ,但 事实 证 明 , 一 个 客户 会 发 生 欠 费 行为 ,而 另 一 个 则 不 会 , 客 
户 欠 费 与 否 具有 不 能 直接 测量 的 随机 性 。 客 户 的 拨打 行为 缴费 情况 、 业 务 使 用 情况 
也 同样 存在 着 不 确定 性 。 而 贝 叶 斯 网 络 理论 在 处 理 不 确定 性 方面 有 其 独特 的 优势 。 
信用 风险 评估 模型 的 可 解释 性 对 于 信用 决策 来 说 很 重要 。 贝 叶 斯 网 络 较 其 他 算法 
具有 简洁 、 准 确 和 易 理解 的 特点 ,并 且 其 结 点 间 的 因果 关系 有 利于 信用 决策 分 析 。 
客户 不 同 的 评分 模型 具有 不 同 的 动 .静态 特点 。 例 如 ,客户 申请 模型 属于 静态 分 类 
问题 ,而 客户 行为 评分 模型 则 属于 与 时 间 相 关 的 动态 分 类 问题 。 贝 叶 斯 网 络 及 其 扩 
展 一 一 动态 贝 叶 斯 网 络 , 能 够 建立 客观 世界 的 静态 模型 和 动态 模型 。 
信用 评估 应 采用 定量 与 定性 分 析 相 结合 的 方法 , 贝 叶 斯 网 络 理论 是 描述 变量 之 间 定 
性 与 定量 依赖 关系 的 图 形 模式 。 贝 叶 斯 分 类 并 不 把 一 个 对 象 绝对 地 指派 给 某 一 类 ， 
而 是 通过 计算 得 出 属于 某 一 类 的 概率 ,具有 最 大 概率 的 类 便 是 该 对 象 所 属 的 类 。 在 
应 用 中 可 以 取 客 户 属于 高 信用 度 类 别 的 概率 作为 信用 分 数 ,概率 是 0 一 1 之 间 的 连 
续 数值 ,而 电信 客户 信用 评分 的 分 数 是 0 一 100 之 间 的 连续 值 ,为 方便 表示 ,将 概率 
扩大 100 倍 , 作 为 最 后 的 信用 度 ,表示 客户 信用 风险 的 大 小 ,分 数 越 高 说 明 欠 费 风险 
越 小 ,信用 越 好 。 而 客户 具体 属于 哪 一 类 是 通过 其 属于 不 同类 的 概率 的 大 小 比较 而 
确定 的 。 因 此 ,通过 贝 叶 斯 网 络 建立 的 信用 评分 模型 有 两 个 输出 结果 来 表示 客户 信 
用 风险 ,分 数 是 客户 信用 风险 的 定量 度量 ,而 类 别 是 定性 尺度 。 这 种 方法 克服 了 特 
征 属性 权 值 分 配 和 划分 类 别 的 临界 值 确定 的 主观 性 。 
鉴于 我 国电 信行 业 开展 信用 评估 工作 刚刚 开始 ,对 客户 信用 状态 的 评价 只 能 由 专家 
评估 ,分 类 成 不 同 的 风险 水 平 , 并 由 手工 标定 完成 ,其 工作 耗 时 而 且 代价 昂贵 ,因而 
要 想 获得 大 数据 量 带 有 信用 类 别 标签 的 数据 是 一 件 很 困难 的 事情 。 这 就 要 求 分 类 
算法 能 够 利用 专家 知识 并 结合 数据 进行 建 模 ,同时 也 要 求 分 类 算法 在 训练 样本 数据 - 
少 的 情况 下 能 够 准确 建 模 。 而 贝 叶 斯 网 络 能 够 使 先 验 知识 和 数据 有 机 地 结合 。 同 
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时 利用 主动 学 习 机 制 , 贝 叶 斯 网 络 可 以 根据 学 习 进 程 ,主动 选择 最 佳 样 本 进行 模型 
学 习 , 从 而 有 效 减 少 所 需 评价 样本 的 数量 。 
下 面 两 节 将 详细 介绍 应 用 主动 学 习 方法 , 贝 叶 斯 网 络 和 动态 贝 叶 斯 网 络 如 何 构 建 客户 
信用 评估 模型 和 客户 信用 风险 行为 演化 模型 。 


8.2 基于 主动 贝 叶 斯 网 络 的 电信 客户 信用 风险 评估 模型 


8.2.1 指标 集 确定 


电信 客户 信用 风险 评估 指标 集 采 取 自 顶 向 下 的 属性 筛选 思路 。 根 据 双 变量 统计 , WR 
那些 与 目标 变量 相关 度 较 小 的 变量 ,之 后 ,对 剩 下 的 变量 参与 建 模 。 

利用 某 省 移动 公司 2001 年 1 一 5 月 的 44220 个 客户 的 缴 欠 费 数据 进行 统计 分 析 。 原 始 
数据 集中 包含 限制 消费 额度 (LIMIT_OWE) 字 段 ,该 字段 是 运营 商 根据 经 验 , 对 不 同 客户 在 
每 个 月 限定 一 个 通信 费用 的 上 限 ,如 果 客 户 的 通信 费用 超出 了 这 个 值 , 则 立刻 停机 。 实 际 上 
在 一 定 程 度 上 可 以 把 它 看 作 信用 额度 的 概念 ,侧面 地 反映 了 客户 的 信用 好 坏 。 通 过 对 这 个 
字段 取 值 进行 了 查看 ,发 现在 0 一 2000 这 个 数据 段 取 值 是 连续 的 ,而 在 小 于 0 时 ,分 别 去 了 
4 个 孤立 值 ( 一 5、 一 15、 一 100、 一 200) ,在 大 于 2000 时 ,也 分 别 去 了 4 个 孤立 值 (5060、.5160、 
5860、6060)。 因 此 ,为 了 能 够 利用 该 字段 分 析 客 户 信用 好 坏 的 数据 特征 ,把 这 个 字段 在 7 个 
区 间 内 进行 离散 化 , 即 小 于 0 元 .0 一 300 36.300 ~ 700 36.700 ~ 1000 元 、1000 一 1500 元 、 
1500~2000 元 .2000 元 以 上 ,LIMIT_OWE 字段 的 取 值 落 在 这 些 区 间 的 相应 取 值 为 “1”、 
“2» “3” “4” “5”、“6”“7”。 离 散 化 的 字段 名 为 LIMIT_OWE LEVEL。 ` 

离散 化 目标 字段 以 后 ,利用 了 双 变 量 统计 方法 来 对 数据 进行 分 析 ,初步 确定 与 LIMIT_ 
OWE_LEVEL 字段 相关 的 属性 集 。 使 用 双 变 量 统计 的 方法 ,通过 目标 变量 不 同属 性 值 对 于 
其 他 属性 的 影响 程度 的 对 比 , 找 出 随 目标 变量 属性 变化 差异 较 大 的 属性 ,剔除 差异 性 不 大 的 
属性 。 因 此 ,在 原始 数据 表 中 ,选取 付费 方式 性别、 年龄 段 .在 网 时 长 等 级 . 欠 费 状态 、. 地 区 、 
预付 费 、 优 惠 费 、 应 缴费 、 月 租 费 、 特 服 费 \ 市 话费 、 漫 游 费 、 长 话费 、 附 加 费 、 农 话费 、 频 占 费 、 
信息 费 做 双 变 量 统 计 , 图 8. 2 所 示 为 利用 IBM DB2 Intelligent Miner 中 的 双 变 量 统 计 工具 
所 得 到 的 全 局 分 析 的 结果 。 

通过 对 该 图 的 分 析 可 以 看 出 ,影响 客户 消费 限额 多 少 的 主要 特征 属性 有 (16 个 ) 性 别 、 
年 龄 .在 网 时 间 .付费 方式 .应 缴费 .月 租 费 、 预 付费、 市 话费 .漫游 费 . 长 话费 、 频 占 费 .优惠 
费 . 地 区 .和 欠 费 状态 .新 交 费 .PAYED_PREPAY。 


8.2.2 基于 投票 彤 和 类 条 件 后 验 最 大 粒 的 主动 贝 叶 斯 网 络 
建立 客户 信用 度 评 分 模型 
1. 问题 背景 
客户 信用 度 是 客户 履约 的 可 能 性 ,分 数 越 高 说 明 信 用 越 好 ,违约 的 可 能 性 越 小 。 在 电信 
企业 的 经 营 分 析 决 策 支持 系统 中 ,客户 信用 度 是 用 于 评价 客户 欠 费 风险 的 指标 , 它 表 示 客 户 


因 各 种 原因 而 不 如 约 缴纳 话费 和 拖欠 话费 可 能 性 的 度量 。 通 过 对 客户 的 自然 属性 、 消 费 行 
为 和 呼叫 行为 等 进行 分 析 , 建 立 准确 的 信用 度 评 分 数学 模型 ,并 将 信用 度 评 分 模型 应 用 于 未 
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知客 户 ,得 到 其 信用 度 值 , 分 值 范围 为 0 一 100。 

目前 我 国电 信行 业 刚 刚 开始 进行 信用 风险 评估 工作 ,大 量 带 有 信用 风险 类 标签 的 历史 
客户 数据 并 不 存在 ,因此 通过 传统 的 分 类 算法 建立 信用 风险 评估 模型 来 预测 新 客户 的 信用 
风险 并 不 可 行 。 为 了 评价 客户 的 信用 风险 ,只 能 由 领域 专家 手工 评价 标注 ,这 是 件 极 其 耗 时 
和 费力 的 事情 。 然 而 ,主动 学 习 可 以 通过 抽样 选择 未 带 类 标注 样本 ,使 用 少量 的 训练 数据 来 
建立 分 类 模型 ,减少 了 标注 样本 所 付出 的 代价 。 

因此 ,利用 6. 2. 2 A p BY BRE MG SS A Es a a KRA QBC 主动 贝 叶 斯 
网 络 分 类 器 ,对 电信 客户 信用 度 建立 评分 模型 ,模型 输出 “有 信用 ”和 “无 信用 ”两 种 分 类 类 
别 , 同 时 贝 叶 斯 网 络 计 算出 属于 某 一 类 别 的 概率 ,把 客户 属于 “有 信用 ”类 别 的 概率 扩大 100 fë 
后 ,得 出 的 分 值 看 作 该 客户 的 信用 度 , 例 如 , 某 客 户 通 过 贝 叶 斯 网 络 模型 预测 无 信用 概率 0. 1， 
有 信用 概率 0.9, 则 该 客户 的 信用 度 分 值 为 90。 如 此 得 到 的 信用 度 分 值 是 基于 客户 历史 数据 ， 
并 且 利 用 贝 叶 斯 网 络 从 中 发 现 其 规律 而 计算 得 到 的 ,分 值 客观 ,防止 了 个 人 主观 态度 的 影响 。 


2(LIMIT OWE LEVEL) 





LIMIT_OWE_LEVEL MONTH FEE 


LIMIT_OWE_LEVEL A ONLINE_LEVEL 


图 8.2 全 局 分 析 的 结果 
注 : 柱状 图 形 中 深 色 对 应 的 部 分 表示 的 全 体 客 户 的 分 布 情况 。 柱 状 图 的 横 轴 表示 数据 层次 , 纵 轴 表 示 对 应 层次 在 
群体 中 的 比例 。 饼 状 图 的 外 图表 示 全 体 客 户 的 分 布 , 内 圈 表 示 该 群集 客户 的 分 布 。 


2. 算法 原理 


EF RAMAKA HG RRKMAAA HK QBC 主动 贝 叶 斯 网 络 分 类 算法 具体 步骤 见 
6. 2. 2 小 节 , 这 里 给 出 其 基本 流程 框图 见 图 8. 3。 
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使 用 少量 训练 样本 学 习 K 个 初始 分 类 器 


KK 个 分 类 器 对 样本 x 进行 分 类 预测 ， 给 出 类 
标注 yw} 
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利用 新 的 训练 集 重新 学 习 k 个 分 类 器 







: 循环 停止 条 件 检查 


停止 循环 
输出 最 终 分 类 器 


图 8.3 BFR MRA BRAM AS QB 主动 学 习 算 法 流程 框图 








3. 应 用 结果 和 分 析 


实验 使 用 某 省 移动 通信 公司 2001 年 1 一 5 月 的 3733 条 客户 数据 进行 信用 度 评分 建 模 。 
其 中 2573 个 客户 数据 作为 训练 数据 (随机 抽取 578 条 为 初始 带 类 标签 数据 ,其 余 1995 条 为 
看 作 未 带 类 标注 数据 ) 无 信用 客户 1030 个 ,有 信用 客户 1543 个 ; 1160 个 客户 数据 作为 测试 
数据 ,无 信用 客户 464 个 ,有 信用 客户 696 个 。 可 用 的 样本 数据 属性 共有 23 个 ,使 用 双 变量 
统计 选取 的 付费 方式 、 性 别 、 年 龄 .在 网 时 长 . 欠 费 状态 .地 区 、 月 租 费 \ 市 话费 、 漫 游 费 、 长 话 
费 等 16 个 字段 参与 建 模 , 并 且 对 连续 字段 进行 了 离散 化 。 

BA SM AA Ht BL SH I AH (Bagging) SWAPS RAE. RH E 
020. 55 H max Cx: ) AY BOE a> 0. 6730 ,选择 停止 的 条 件 “ 为 分 类 准确 性 不 小 于 95% 或 者 搜索 
完 所 有 的 未 带 类 别 标 注 的 样本 集 。 

图 8.4 所 示 为 该 组 数据 的 3 HIRA EFRA QBC 方法 (VE) 、 基 于 投票 
KE SAAS WRK HY QBC 方法 (VE& Hina) 和 被 动 学 习 的 分 类 准确 率 曲 线 比 
较 。 从 图 8.4 PIJER, AEF HAS QBC 方法 选择 停止 后 ,总共 选择 了 71 条 未 带 类 别 
标注 的 样本 ,分 类 预测 准确 率 为 88%; ETRANGER RRK HM QBC 方法 
选择 停止 后 ,总 共 选 择 了 111 个 未 带 类 别 标注 的 样本 ,分 类 预测 准确 率 达 到 了 90%。 被 动 


”学 习 使 用 了 除 测试 数据 以 外 的 2573 条 记录 作为 训练 数据 ,分 类 准确 率 为 900%。 表 8.1 所 


示 为 VE& HH 模型 在 测试 集 上 的 各 类 召回 率 比较 ,从 表 8. 1 中 可 以 看 出 ,该 模型 对 各 类 的 
召回 率 都 相当 高 。 
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图 8.4 3 种 学 习 算 法 分 类 准确 率 曲线 比较 
表 8.1 VE&Hww 模 型 测试 结果 


信用 类 别 无 信用 用 户 有 信用 用 户 召回 率 
无 信用 用 户 399 65 86% 
有 信用 用 户 51 645 93% 


VES Hm A 4 WA 8.5 所 示 , 图 中 结 点 16 为 信用 类 别 结 点 。 图 8. 6 所 示 为 
VE& Hw 模型 在 测试 集 (1200 个 客户 数据 ,其 中 无 信用 客户 138 个 ,有 信用 客户 1062 个 ) 上 
的 客户 信用 度 分 值 分 布 ,从 图 8. 6 中 可 以 看 出 ,90% 的 以 上 计算 的 信用 度 落 在 高 端 ,这 与 实 
际 情况 相 吻 合 ,说 明 VE& Hx 算法 建立 的 模型 有 很 高 的 准确 性 。 图 8. 7 所 示 为 带 有 信用 度 
评分 字段 的 预测 数据 表 。 其 中 字段 16 为 客户 实际 的 信用 类 别 字 段 , 字 段 17 HW VERA 
型 预测 的 客户 信用 类 别 ,字段 18 为 VE& Hx 模型 评估 的 客户 信用 度 值 。 





8.5 电信 客户 信用 评分 模型 结构 
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8.2 基于 主动 贝 叶 斯 网 络 的 电 


图 8.6 客户 





i=} 
= 
l 
oO 
oD 
RK 
£ 
= 


1{h3#0~10 

2 代表 10~20 
3 代表 20~30 
4 代表 30~4 和 0 
5 代表 40~50 
6 代表 50~60 
7 代表 60~70 
8 代表 70~80 
9 代表 80~90 





x 轴 : 























1 one 


























| 











1 

1 

1 

1 

1 

1 

1 
Ay 
1 
2 
中 _ 
1 



































ae nen aes 


1 
1 
u 
1 
i 
1 
1 
1 











Deiat cs 
1 


客户 新 增 与 流失 分 
可 以 应 用 于 各 种 


其 


` 
9 


一 个 重要 分 析 角 度 


信用 度 评 分 模型 预测 结果 
诈 分 析 的 
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难 辨 的 问题 ,一 方面 找到 少 部 分 低 信 用 或 无 信用 用 户 ,使 恶意 欠 费 透支 的 现象 得 到 抑制 ; 另 
一 方面 ,发 现 绝 大 多 数 高 信用 和 按时 交 费 的 用 户 ,使 他 们 得 到 更 优质 的 通信 服务 ,防止 他 们 
流失 。 

建立 客户 信用 风险 等 级 评估 模型 ,主要 是 为 客户 信用 风险 行为 演化 DBN 模型 中 初始 
网 的 建立 提供 网 络 结构 和 参数 。 

Be Fea ER A EG BE Hl), E F BR A A a) AS EN OL r 
网 络 分 类 算法 更 适合 于 多 类 分 问题 ,因此 ,采用 该 算法 作为 信用 风险 等 级 评估 模型 的 建 模 
算法 。 


2. 算法 原理 


基于 投票 焙 和 最 小 相对 炉 相 结合 的 主动 贝 叶 斯 网 络 分 类 算法 具体 步骤 见 6. 2. 2 节 , 这 
里 给 出 其 基本 流程 框图 如 图 8. 8 所 示 。 


使 用 少量 训练 样本 学 习 K 个 初始 分 类 器 












KK 个 分 类 器 对 样本 x 进行 分 类 预测 ， 给 出 类 
标注 yn} 





计算 Dx) 


利用 新 的 训练 集 重新 学 习 k 个 分 类 器 


使 用 训练 集 学 习 最 终 的 分 类 器 


循环 停止 条 件 检查 


停止 循环 
输出 最 终 分 类 器 


图 8.8 基于 投票 粹 和 最 小 相对 烂 相 结 合 的 主动 贝 叶 斯 网 络 分 类 算法 流程 框图 










3. 应 用 结果 和 分 析 


实验 使 用 某 省 移动 通信 公司 2001 年 1~5 月 的 33512 条 客户 数据 进行 信用 等 级 分 类 的 
建 模 。 电 信 专 家 根据 客户 的 基本 情况 、 缴 欠 费 记录 和 呼叫 行为 记录 对 客户 的 信用 等 级 进行 
了 评估 ,信用 等 级 分 为 4 个 级 别 ( 数 据 类 分 布 见 表 8. 2)。 对 其 中 4755 条 数据 作为 训练 数 
据 , 把 这 个 数据 集 再 分 为 两 个 部 分 ,其 中 3743 条 记录 看 作 主 动 学 习 过 程 中 的 未 带 类 别 标注 
的 候选 样本 集 , 另 外 1012 条 记录 看 作 少 量 带 有 类 标注 的 样本 集 ,并 用 这 个 数据 集 再 学 习 两 
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个 初始 化 分 类 器 。 测 试 数据 集 为 28757 条 客户 记录 。 选 取 付 费 方式 ,性 别 .年 龄 .在 网 时 长 、 
欠 费 状态 、 地 区 、 月 租 费 \ 市 话费 、 漫 游 费 、 长 话费 等 16 个 字段 参与 建 模 , 并 且 对 连续 字段 进 
行 了 离散 化 。 
表 8.2 电信 客户 信用 等 级 数据 类 分 布 
N N% 
68% 
9717 29% 


905 2.7% 
102 0.3% 
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委员 会 成 员 为 两 个 ,分 类 算法 采用 MBBC 贝 叶 斯 网 络 分 类 器 , 阔 值 9 宇 0. 5,a> 
一 0.0031 Al a<0. 05, >85% . 

实验 对 基于 投票 焙 的 QBC 方法 (VE) FREN SB) AEA AY QBC 方法 
(VE&KL-dws) 和 被 动 学 习 进 行 了 实验 比较 ,其 中 基于 投票 炉 的 QBC 方法 选择 了 476 条 样 
本 数据 ,分 类 精度 达到 81% , SEF AS BD AT AHS BY QBC 方法 选择 了 947 RH 
本 数据 ,分 类 精度 达到 84% ,被 动 学 习 方法 使 用 了 所 有 的 3743 条 样本 数据 ,分 类 精度 达到 
84%。 三 者 的 比较 见 图 8.9, PRAM SRAM MAAS H QBC 方法 所 建 的 信用 等 
级 评估 模型 结构 如 图 8. 10 所 示 。 表 8. 3 所 示 为 VE&KL-dw 模 型 在 测试 集 上 的 测试 结果 ， 
其 中 对 等 级 3 和 等 级 4 的 召回 率 不 是 很 高 ,原因 是 训练 数据 集中 这 两 类 的 数据 比例 与 前 两 
者 比 很 小 , 故 这 两 类 数据 大 部 分 被 分 到 了 等 级 1 和 等 级 2 中 。 为 了 建立 更 加 准确 的 模型 , 需 
要 调整 训练 数据 集中 各 类 的 数据 比例 ,但 需要 长 时 间 的 积累 后 两 类 的 数据 。 


信用 率 数 据 





500 1000 1500 2000 2500 3000 3500 4000 
训练 数据 


8.9 3 种 学 习 方法 的 分 类 准确 率 比 较 
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图 8. 10 信用 等 级 评估 模型 结构 
表 8.3 VE&KL-dmn 模 型 测试 结果 
信用 等 级 1 2 3 4 不 能 分 类 召回 率 
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BÆ MARKEER RA MEE BE oy E, FR a AY QBC 
方法 比 原 有 QBC 方法 更 好 ,能 够 达到 与 被 动 学 习 相 同 的 分 类 准确 性 ,并 且 由 主动 学 习 选 择 
的 少量 样本 数据 有 助 于 分 类 器 性 能 的 提高 ,主动 学 习 模 型 使 用 的 训练 数据 量 远 远 比 被 动 学 
习 要 少 ,这 极 大 地 降低 了 人 为 标注 样本 标签 的 工作 量 。 


8.3 基于 半 监 督 主动 学 习 的 DBNs 建立 电信 客户 信用 风险 
行为 演化 模型 


8.3.1 问题 背景 


对 于 电信 客户 的 信用 评估 问题 ,在 网 客户 的 信用 等 级 是 一 个 动态 变化 的 过 程 ,客户 消费 
行为 的 变化 表现 了 其 信用 级 别 相应 的 变化 情况 。 客 户 信用 风险 行为 演化 模型 就 是 要 通过 一 
定时 期 的 客户 行为 表现 来 预测 客户 在 未 来 各 时 间 点 的 信用 风险 趋势 。 采 用 动态 贝 叶 斯 网 络 
来 建立 客户 行为 评分 模型 ,不仅 可 以 找到 客户 信用 等 级 的 变化 规律 ,同时 可 以 对 信用 风险 发 
生 的 原因 及 其 结果 进行 分 析 ,为 制定 短期 或 长 期 的 经 营 管理 决策 提供 依据 。 

该 模型 对 单个 账户 信用 行为 统计 分 析 ,对 现 有 客户 未 来 欠 账 风险 的 评估 , 主要 考察 老 客 
户 的 信用 风险 水 平 的 波动 性 。 首 先 ,假定 信用 等 级 转换 概率 是 遵循 一 个 稳定 的 马尔 可 夫 过 
程 (Markov Process)。 马 尔 可 夫 过 程 是 指 客户 的 信用 等 级 转换 至 其 他 信用 等 级 的 概率 与 它 
们 过 去 的 此 种 概率 是 没有 任何 相关 性 的 。 

对 于 信用 风险 行为 演化 模型 ,时 间 跨 度 的 选择 更 是 关键 ,因为 行为 分 析 是 一 个 纵 长 的 预 
报 系统 ,假设 一 个 行为 模型 是 基于 输出 时 间 段 是 12 个 月 的 样本 构建 的 ,那么 这 个 模型 可 能 
.被 用 来 预测 在 未 来 12 个 月 内 ,当前 的 风险 级 别 是 否 会 出 现 变化 。 一 般 行为 评分 模型 的 时 间 
段 为 6 个 月 到 2 年 。 在 此 ,由 于 实验 数据 来 源 有 限 , 选 定时 间 跨 度 为 5 个 月 。 

由 于 目前 电信 客户 信用 评估 刚刚 展开 ,客户 的 基本 数据 还 不 完备 ,如 婚姻 状况 AE HF 
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金 . 其 他 欠 贷 款 情 况 等 数据 目前 难以 获得 ,这 些 属 性 专家 认为 也 能 够 影响 到 其 信用 等 级 的 评 
估 和 信用 风险 的 波动 。 其 次 ,假设 信用 等 级 转换 概率 矩阵 是 稳定 的 ,也 就 是 说 假定 不 同 客 
P .不 同时 期 之 间 的 信用 等 级 转换 概率 是 不 变 的。 然而 实际 上 ,行业 因素 、 国 家 因素 及 商业 
周期 因素 均 会 对 信用 等 级 转换 概率 产生 重要 影响 。 因 此 ,在 建 模 时 ,这 些 变量 是 不 可 观测 到 
的 ,并 且 能 观测 到 的 部 分 变量 的 演化 并 不 一 定 满足 马尔 可 夫 假 设 , 这 样 尽管 潜在 的 客户 信用 
行为 模型 满足 马尔 可 夫 假 设 , 但 由 于 只 观测 到 了 部 分 变量 ,也 无 法 用 这 些 变量 建立 准确 的 动 
态 贝 叶 斯 网 络 模型 。 然 而 ,这 些 因素 可 以 在 模型 中 以 隐藏 变量 的 形式 出 现 ,因此 ,有 必要 增 
加 隐藏 变量 来 参与 建 模 。 同 时 ,由 于 专家 评估 客户 的 数量 有 限 ,大 量 客户 数据 未 带 有 信用 等 
级 标注 ,因此 ,应 利用 主动 学 习 机 制 仔细 挑选 样本 ,通过 专家 评定 有 利于 建 模 的 样本 数据 ,使 
其 加 入 训练 集中 ,来 加 快 建 模 过 程 ,减少 人 工 标注 代价 。 

下 面 介绍 利用 6. 2. 3 节 提 出 的 DBNs-SSAL 算法 来 建立 电信 客户 信用 风险 行为 演化 模 
型 ,预测 未 来 某 一 时 期 客户 的 信用 风险 状态 ,考察 客户 的 信用 风险 水 平 的 波动 性 。8. 3. 2 节 
和 8. 3. 3 节 分 别 讨论 了 基于 分 类 误差 损失 减少 和 EM 的 DBNs 学 习 算 法 以 及 基于 QBC 和 
EM 的 DBNs 学 习 算法 ,通过 实际 的 电信 客户 信用 数据 比较 了 两 个 算法 的 计算 效率 和 分 类 
性 能 。 


8.3.2 基于 ERS 和 EM 的 DBNs 学 习 算 法 建立 客户 信用 风险 行为 演化 模型 


1. 算法 原理 


基于 误差 减少 和 EM 的 动态 贝 叶 斯 网 络 学 习 算 法 具体 步骤 见 6. 2. 3 节 , 这 里 给 出 其 基 
本 流程 框图 见 图 8.11. 


利用 DBNs-SEM 算 法 和 EM 算法 ， 从 ZL 和 VU 中 学 习 DBNs 分 类 器 成， 并 且 在 
测试 集 上 计算 其 分 类 准确 性 








对 于 VX;E U 考 察 其 每 一 个 可 能 的 类 标签 了 ， 使 得 L'=L+(XY)，U=U-(X), 然 
后 使 用 DBNs-SEM 算 法 和 EM 算法 从 L+ 和 可 中 学 习 分 类 器 所 


利用 公式 (6.6) 计 算 尺 


对 于 V8ES=sfKU)=argmaxR.， 从 7 中 选择 蕊 并 且 获 得 其 真实 的 类 标 
ZY, MAL, BL=LHX,Y;), U=U4X) 
























使 用 DBNs-SEM 算 法 和 EM 算法 从 L* 和 中 学 习 分 类 器 万 ， 并 且 在 测 
试 集 上 计算 其 分 类 准确 敢 i 


循环 停止 条 件 检测 
输出 最 终 分 类 器 二 


图 8. 11 基于 误差 减少 和 EM 的 动态 贝 叶 斯 网 络 学 习 算 法 的 流程 框图 
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2. 应 用 结果 和 分 析 


建 模 使 用 某 省 移动 通信 公司 2001 年 1~5 月 的 475 个 客户 数据 ,总 共 2375 条 数据 记录 
进行 信用 风险 行为 建 模 。 其 中 1980 条 数据 用 作 训 练 数据 ,在 这 部 分 数据 中 ,又 随机 抽取 
330 条 数据 记录 用 作 初 始 分 类 器 的 训练 ,1650 条 数据 看 作 未 标注 的 数据 记录 。 测 试 数据 为 
395 条 数据 记录 。 电 信 专 家 根据 客户 的 基本 情况 、 缴 欠 费 记录 和 呼叫 行为 记录 对 客户 的 信 
用 等 级 进行 了 评估 ,信用 等 级 分 为 4 个 级 别 。 选 取 欠 费 状态 、 地 区 、 月 租 费 .市 话费 、 预 付费 、 
长 话费 、 新 交 款 和 信用 级 别 等 8 个 字段 参与 建 模 ,并 且 增 加 了 两 个 隐 结 点 参与 建 模 。 

建 模 选 择 8. 2. 2 小 节 的 信用 等 级 评估 模型 作为 初始 网 的 结构 , 且 假 设 每 个 时 间 片 内 网 
络 结构 和 参数 与 初始 网 相同 ,整个 动态 贝 叶 斯 网 络 按 5 个 时 间 片 展开 。 

为 了 验证 基于 ERS 和 EM 的 动态 贝 叶 斯 网 络 学 习 算法 [DBNs-SSAL(ERS&EM)] 的 
效率 和 性 能 ,实验 比较 了 基于 DBNs-SSAL(ERS8-EM) Bk ETRE QBC 主动 学 习 、 
基于 半 监 督学 习 和 基于 监督 学 习 的 动态 贝 叶 斯 网 络 分 类 器 的 分 类 准确 性 。 实 验 结果 如 
8.12 所 示 。 由 于 DBNs-SSAL(ERS&EM) 的 计算 复杂 度 较 高 ,在 个 人 计算 机 上 运行 了 
166h, 并 未 得 出 最 终结 果 , 只 选择 了 7 个 样本 提交 用 户 标记 ,并 将 其 加 入 训练 集中 参与 训练 。 








50 100 150 200 250 300 350 400 
训练 数据 


“图 8.12 4 种 学 习 方法 的 学 习 结 果 比 较 


从 实验 结果 来 看 ,利用 半 监 督学 习 在 学 习 过 程 中 加 入 未 标记 样本 时 , 与 加 入 标记 样本 
的 监督 学 习 有 相同 的 性 能 ,但 其 后 续 表现 不 如 监督 学 习 , 这 是 因为 学 习 过 程 中 错误 分 类 信息 
的 加 入 而 影响 了 分 类 精度 。 主 动 学 习 与 半 监 督 和 监督 学 习 相 比 ,其 学 习 速 度 明显 快 于 两 者 ， 
但 是 其 分 类 精度 不 如 监督 学 习 。 而 基于 DBNs-SSAL(ERS&EM) 的 学 习 算 法 , 其 选择 了 比 
主动 学 习 更 少 的 未 标注 样本 后 ,DBNs 分 类 器 很 快 就 达到 了 与 其 相同 的 分 类 精度 。 因 此 ,从 
计算 效率 上 来 讲 , 该 算法 不 如 基于 投票 粹 的 QBC 主动 学 习 和 基于 半 监 督学 习 。 但 是 从 使 用 
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查询 样本 的 数目 上 看 , 比 其 他 3 种 算法 要 少 ,并 且 所 获得 分 类 性 能 好 ,这 无 疑 减少 了 人 工 评 
价 样本 的 工作 量 。 


8.3.3 基于 QBC 和 EM 的 DBNs 学 习 算 法 建立 客户 信用 风险 行为 演化 模型 


由 于 基于 ERS 和 EM 的 动态 贝 叶 斯 网 络 学 习 算 法 计算 复杂 度 高 , 建 模 需 要 的 时 间 长 ， 
因此 ,本 小 节 介 绍 另 一 种 学 习 算法 一 一 基于 VE&KL-dmin h9 QBC 和 EM 的 动态 贝 叶 斯 网 络 
学 习 算 法 [DBNs-SSAL(VE-KLdmn &EM)] ,建立 客户 信用 风险 行为 演化 模型 ,讨论 其 计算 
效率 和 模型 分 类 性 能 。 


1. 算法 原理 


基于 DBNs-SSAL(CVE-KLdui&EM) 的 学 习 算 法 具体 步骤 见 6. 2. 3 节 , 这 里 给 出 其 流 
程 框图 见 图 8. 13。 





输入 初始 条 件 和 数据 集 


利用 DBNs-SEM 算 法 和 EM 算法 ， 从 LL 中 学习 k 个 DBNs 
分 类 器 {hi， api shy} 












对 于 Vv%EU， 用 {hi1,… ,hj 软 分 类 


利用 公式 (6.15) 计 算 DCOOD) 







利用 公式 (6.26) 计 算 
KL-dmin(Xj) 


UPR, KRAKEN MARIA. E l 
T LLX U UX) L-dmin XD ELL 


利用 DBNs-SEM 算 法 和 EM 算法 ,在 三 和 [六 上学 习 DBNs 
TXH 








循环 停止 条 件 检测 
输出 最 终 分 类 器 及 


图 8.13 基于 VE&KL-dain hj QBC 和 EM 的 动态 贝 叶 斯 网 络 学 习 算法 流程 框图 






2. 应 用 结果 和 分 析 


实验 使 用 的 数据 与 8. 1. 2 节 相 同 , 实 验 比 较 了 基于 DBNs-SSAL(VE-KLd,, &EM) 算 
法 基于 投票 粹 的 QBC 主动 学 习 、 基 于 半 监 督学 习 和 基于 监督 学 习 的 动态 贝 叶 斯 网 络 分 类 
器 的 分 类 准确 性 。 基 于 DBNs-SSAL(VE-KLdss&EM) 算 法 使 用 了 5. 46h 计算 出 最 终结 
果 。 实 验 结 果 如 图 8. 14 所 示 。 从 实验 结果 来 看 ,基于 DBNs-SSAL(VE-KLd, i, & EM) BE 
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选择 了 比 主 动 学 习 更 少 的 未 标注 样本 后 ,DBNs 分 类 器 很 快 就 达到 了 与 其 相同 的 分 类 精度 ， 
并 且 随 着 再 选择 少量 样本 后 其 达到 了 与 监督 学 习 相同 的 分 类 精度 。 因 此 ,无 论 是 效率 还 是 
性 能 , 均 超过 了 其 他 3 种 版 本 的 DBN 分 类 器 。 


信任 度数 据 的 准确 率 
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0.5 


训练 数据 
图 8.14 DBNs-SSAL(VE-KLdrin & EM) 、 主 动 学 习 、EM 算法 和 监督 学 习 的 学 习 曲 线 比 较 


下 面 的 实验 比较 了 基于 DBNs-SSAL ( VE-KLd,i, &EM) 算 法 和 基于 DBNs-SSAL 
(VE&EM) 算 法 。 实 验 结果 如 图 8. 15 所 示 , 从 实验 结果 来 看 , VE-KLdws SEM 算法 比 
VE& EM 算法 学 习 速度 快 ,并 且 所 建 分 类 器 的 性 能 更 好 ,可 以 达到 与 监督 学 习 相 同 的 分 类 
精度 。 图 8. 16 所 示 为 DBNs-SSAL(VE-KLdws&EM) 算 法 所 建 的 客户 信用 风险 行为 演化 
DBNs 模型 ,其 中 模型 按 5 个 时 间 片 展开 ,h 为 信用 等 级 类 结 点 ,ij 为 隐藏 变量 。 

同时 , 实验 又 比较 了 基于 DBNs-SSAL (ERS&EM) 算 法 和 基于 DBNs-SSAL (VE- 
KLdmin &EM) 算 法 的 学 习 时 间 和 学 习 效 果 。 从 实验 结果 来 看 ,DBNs-SSAL(ERS&EM) 算 
法 的 学 习 时 间 远 远 比 DBNs-SSAL(VE-KLdm,&EM) 算 法 的 时 间 要 长 ,由 于 实验 条 件 有 限 ， 
实验 未 能 得 到 DBNs-SSAL(ELRS&EM) 算 法 的 最 终 表现 ,但 从 前 期 的 学 习 效 果 来 看 ,其 与 
VE&KL-drmis 的 学 习 效果 相同 。 

从 模型 的 应 用 角度 来 看 ,如 果 知 道 某 客户 的 某 个 月 的 信用 等 级 ,就 可 以 预测 其 后 4 个 月 
的 信用 风险 水 平 。 

总 之 ,通过 以 上 的 介绍 可 以 看 到 ,基于 QBC 和 EM 的 DBNs 学 习 算 法 建立 的 客户 信用 
风险 行为 演化 模型 ,从 效率 和 性 能 上 都 优 于 基于 误差 减少 和 EM 的 动态 贝 叶 斯 网 络 模型 ， 
该 建 模 方法 较 好 地 解决 了 利用 监督 学 习 建 立信 用 风险 行为 演化 模型 时 所 面临 的 训练 样本 缺 
乏 的 困难 ,解决 了 人 工 评价 样本 所 需 时 间 多 又 代价 昂贵 的 问题 ,为 其 实际 应 用 提供 了 良好 的 
解决 思路 。 
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图 8.16 客户 信用 风险 行为 演化 DBNs 模型 
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在 语音 识别 领域 ,基于 隐 马 尔 可 夫 模 型 的 语音 识别 已 经 相当 成 熟 ,并 获得 较 高 的 识别 结 
果 , 然 而 , 随 着 实验 环境 的 要 求 ,尤其 在 噪声 环境 下 ,识别 率 骤然 下 降 ,怎样 降低 噪声 的 影响 、 
提高 语音 的 识别 率 , 是 研究 者 需要 解决 的 问题 。 伴 随 语音 的 视觉 特征 ,其 作为 一 种 辅助 语音 
识别 有 用 的 信息 ,引起 了 研究 者 的 注意 ,实验 表明 ,在 噪声 环境 下 ,视觉 信息 完全 不 受 噪 声 的 
影响 ,因而 利用 视觉 信息 的 这 一 特性 ,可 以 弥补 语音 识别 中 听 党 特征 对 噪声 鲁 棒 性 较 差 的 缺 
点 ,有 效 地 提高 在 噪声 环境 下 语音 识别 的 识别 率 。 

本 章 首先 阑 述 了 语音 识别 的 基本 原理 ,对 语音 识别 的 各 个 步骤 进行 了 简要 介绍 ,然后 详 
细 介 绍 了 基于 HMM 的 语音 识别 方法 和 实验 效果 , 对 HMM 的 训练 和 HMM 的 识别 进行 
了 阐述 ,最 后 介绍 了 基于 深度 动态 贝 叶 斯 网 络 的 视听 语音 识别 方法 和 实验 效果 ,主要 对 深 
度 动态 贝 叶 斯 网 络 的 结构 拓扑 和 学 习 方 法 、 基 于 深度 动态 贝 叶 斯 网 络 的 特征 学 习 和 融合 识 
别 算法 进行 了 详细 介绍 ,同时 针对 藏 语 视 听 语 音 识别 的 应 用 ,分 析 了 其 模型 优势 。 


9.1 语音 识别 基本 原理 






本 流程 如 图 9. 1 所 示 ,粗略 地 表示 了 一 个 语音 识别 系统 的 结构 框图 。 
(1) 语音 采集 和 数字 化 。 说 话 者 发 出 来 的 语 
音信 号 是 模拟 信号 ,而 计算 机 处 理 的 一 般 是 数字 信 
据 ,然后 将 经 过 处 理 后 的 数字 信和 号 提交 给 语音 预 处 
理 模块 。 另 外 ,采集 模块 在 获得 语音 信号 之 后 ,还 
图 9.1 语音 识别 流程 示意 图 需要 对 信号 进行 简单 的 处 理 ,如 滤波 .语音 格式 、 标 

序列 的 加 窗 的 短 时 信号 。 
(3) 特征 提取 。 这 是 对 短 时 信号 进行 分 析 , 提 取 语 音 特征 参数 的 过 程 ,典型 的 语音 特征 
参数 包括 语音 帧 能 量 、 基 音频 率 、 语 音信 号 的 短 时 谱 、 线 性 预测 系数 (LPC) ,共振 峰 频率 及 带 


语音 识别 系统 的 基本 任务 就 是 将 说 话 者 的 模拟 语音 信号 ,识别 成 文字 符号 进行 输出 , 基 
号 。 语 音信 号 采集 就 是 将 输入 的 模拟 语音 信号 转 
换 成 便于 计算 机 处 理 的 数字 信号 ,为 系统 提供 数 

准 化 等 。 
(2) 预 处 理 。 一 般 包 括 预 加 重 、 加 窗 分 帧 端点 检测 。 经 预 处 理 后 的 信号 被 转换 成 了 帧 
% LPC 倒 谱 特征 (LPCC) „MEL 倒 谱 特征 (MFCC) LSP 特征 . 基 音 轮 廊 特征 、 部 分 相关 系 
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(4) 训练 是 在 使 用 过 程 中 不 断 修 订 特 征 提取 参数 ,以 使 各 项 参数 更 加 合理 ,从 而 提高 识 
别 率 。 

(5) 语音 识别 是 目标 语音 根据 特征 参数 与 模型 库 中 的 参数 进行 匹配 ,产生 识别 结果 的 
过 程 。 一 般 有 模板 匹配 法 、 概 率 图 模型 法 和 神经 网 络 等 。 


9.2 基于 隐 马 尔 可 夫 模 型 的 孤立 词语 音 识别 


隐 马 尔 可 夫 模 型 (Hidden Markov Models, HMM) 作 为 语音 信号 的 一 种 统计 模型 ,今天 
正在 语音 处 理 各 个 领域 中 获得 广泛 的 应 用 。 

对 于 特定 人 孤立 词 识 别 ,DTW 和 HMM 在 相同 的 环境 条 件 下 ,识别 效果 相差 不 大 。 但 
对 于 非特 定 人 孤立 词 识 别 , HMM 一 方面 用 隐 含 的 状态 对 应 于 声学 层 各 相对 稳定 的 发 音 单 
位 ,并 通过 状态 转移 和 状态 驻 留 来 描述 发 音 的 变化 ; 另 一 方面 它 引 人 了 概率 统计 模型 ,不 再 
FA DTW 算法 中 动态 时 间 对 齐 的 方法 求 匹 配 距 离 , 而 是 用 概率 密度 函数 计算 语音 参数 对 
HMM 模型 的 输出 概率 ,通过 搜索 最 佳 状态 序列 ,以 最 大 后 验 概率 为 准则 找到 识别 结果 , 具 
有 更 好 的 性 能 。 

HMM 的 缺点 在 于 统计 模型 的 建立 需要 依赖 一 个 较 大 的 语音 库 , 这 在 实际 工作 中 占有 
很 大 的 工作 量 , 且 模型 所 需要 的 存储 量 和 匹配 计算 (包括 特征 矢量 的 输出 概率 计算 ) 的 运算 
量 相 对 较 大 。 

在 2.2.1 节 中 将 隐 马 尔 可 夫 模 型 分 为 离散 HMM (Discrete HMM,DHMM) 和 连续 
HMM(Continuous HMM,CHMM) CHMM 通常 是 连续 高 斯 混合 密度 HMM 模型 ,其 观 
测 矢 量 服从 连续 高 斯 混合 密度 函数 分 布 ,通过 选取 几 个 中 心 不 同 的 高 斯 混合 密度 函数 , 即 用 
多 个 高 斯 加 权 和 来 近似 观测 矢量 的 概率 分 布 ,增强 了 HMM 的 建 模 能 力 。 因 此 ,本 节 使 用 
CHMM 模型 进行 语音 识别 。 


9.2.1 F HMM 的 语音 识别 框架 


如 图 9.2 所 示 , 利 用 HMM 方法 进行 语音 识别 ,分 为 两 个 阶段 进行 。 在 训练 阶段 ,将 输 
入 的 语音 信号 样本 通过 预 处 理 ,特征 参数 提取 等 一 定 的 处 理 之 后 ,使 用 HMM 训练 算法 ,为 
每 个 词 条 建立 一 个 HMM 模型 。 当 所 有 词 条 训练 完毕 后 ,将 模型 数据 保存 ,分 别 建立 了 系 
统 词汇 表 中 每 个 词 对 应 的 HMM 模型 ,构成 了 模型 库 。 在 识别 阶段 ,将 未 知 语音 信号 通过 
同样 的 预 处 理 和 特征 参数 提取 之 后 ,使 用 HMM 识别 算法 ,与 训练 阶段 构成 的 模型 库 中 的 
模型 进行 匹配 ,根据 一 定 的 规则 ,将 语音 的 识别 结果 输出 。 






语音 输入 


9.2 基于 AMM 的 语音 识别 框架 


当 分 析出 语音 识别 结果 之 后 ,将 获得 的 识别 结果 传递 给 结果 处 理 模块 ,结果 处 理 模 块 将 
做 出 某 种 反应 。 比 如 ,以 文字 形式 显示 识别 结果 ,或 以 音频 形式 播放 语音 等 。 
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9.2.2 HMM 训练 


在 语音 识别 中 ， 观测 序列 就 是 通过 计算 得 到 的 一 帧 帧 的 语音 参数 ,. 如 MFCC 参数 。 而 
状态 则 是 在 训练 阶段 事先 规定 好 的 不 同 语音 单元 。 语 音 单元 可 以 是 一 个 完整 的 音节 ,也 可 
以 是 更 为 精细 的 音素 。 

一 个 HMM 模型 由 若干 个 状态 组 成 , 随 着 时 间 的 变化 ,各 个 状态 之 间 可 以 发 生 转移 ,也 
可 以 在 一 个 状态 内 驻 留 。 每 个 观察 向 量 对 不 同 的 状态 都 有 相应 的 输出 概率 。 如 图 9. 3 所 示 
的 HMM, 包 含有 4 个 状态 S ,S: ,S: ,Ss。 状 态 之 间或 状态 自身 的 转移 概率 用 oj 表示 ,输入 
观察 序列 为 O=O, Oz ,… ,Or。 每 个 观察 序列 是 一 帧 MFCC 参数 。 在 这 个 模型 中 , 序列 
O1,O;,… ,Or 是 可 观测 的 输入 序列 , 称 为 观察 序列 ,而 每 一 时 刻 所 处 的 状态 却 是 隐 含 的 。 





Oi O2 03 O4 «++ t Or 
图 9.3 HMM 与 语音 参数 的 关系 


HMM 模型 通常 采用 4 二 (A,B,x) 表 示 , 对 于 一 个 CHMM, 用 N 表示 模型 的 状态 数 ， 
A= {ai} 代表 状态 转移 概率 和 矩阵 ,x 二 {xi} 代 表 各 状态 的 起 始 概 率 分 布 ,B 二 {6b;(o)}) 代 表 输 出 
概率 密度 函数 ,其 中 


b;(0) = Visite Aled 1<j<N (9.1) 
m=1 


式 中 ,M 为 每 个 状态 包含 的 高 斯 元 的 个 数 ; cm 为 第 7 个 状态 第 m 个 混合 高 斯 函数 的 权 ; y 
为 正 态 高 斯 概率 密度 函数 ; yo, 为 第 j 个 状态 第 m 个 混合 高 斯 元 的 均值 矢量 ; U;, 为 第 j 个 
状态 第 m 个 混合 高 斯 元 的 协 方差 矩阵 。 

权 系 数 cm 满足 下 面 的 条 件 , 即 


M 
De = 1 IKIN (9. 2) 


对 于 CHMM 的 每 一 个 状态 ,都 用 若干 个 正 态 高 斯 概率 密度 函数 (简称 为 PDF) 的 线性 
组 合 来 表示 ,每 个 PDF 有 各 自 的 均值 矢量 和 协 方差 矩阵 , 这些 都 是 通过 对 大 量 的 MFCC 参 
数 进行 统计 得 到 的 。 

HMM 训练 就 是 根据 输入 语音 的 观察 值 序列 O=O, ,O, +, Or 和 初始 模型 参数 4 = 
(A,B) ,以 一 定 的 规则 反复 调整 模型 参数 ,逐步 构成 新 的 模型 ,使 得 PCO|A)>PCOlA), 
直至 P(O1X) 收 敛 , 使 概率 PC(O|4) 尽 可 能 达到 最 大 ,最 终 得 到 一 个 优化 模型 4 二 (x,A,B) 的 
过 程 。HMM 训练 过 程 可 使 用 前 面 2. 2. 1 小 节 中 的 Baum-Welch 算法 。 但 是 ,模型 中 的 状 
态 随 着 时 间 而 递增 ,t 时 刻 模型 处 于 某 一 个 状态 ,t 十 1 时 刻 模型 却 处 于 另 一 个 递增 的 状态 。 
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然而 左右 型 HMM 的 一 个 主要 问题 是 不 能 使 用 一 个 单个 的 观测 样本 序列 来 训练 模型 , 换 言 
之 , 单 观测 样本 序列 得 到 的 状态 转移 统计 信息 很 不 充分 ,不 利于 模型 参数 的 重 估 ,这 是 因为 
模型 内 部 状态 的 暂 态 本 质 仅仅 允许 较 少 的 观测 值 用 于 每 一 个 状态 。 而 Baum-Welch 算法 是 
在 假设 只 有 一 个 观察 序列 的 条 件 下 推导 出 来 的 ,因此 ,为 了 提高 识别 精度 ,采用 多 样本 值 , 即 
多 观察 值 序列 的 CHMM 方法 来 构建 语音 识别 系统 。 

由 式 (2.9) 和 式 (9.1) 可 知 ,CHMM 模型 中 包含 5 个 基本 参数 : 初始 状态 概率 六、 状态 
转移 概率 矩阵 ay 、 混 合 高 斯 函数 权 值 cm ,均值 pr SOT BEE VU, 。 设 有 工 个 训练 样本 ， 
通过 端点 检测 .特征 提取 之 后 ,得 到 工 个 观察 值 序列 集合 , 记 为 O= (0,0 ,+-,0™}, 
其 中 OY 1S1<L) RAH ! 个 观察 样本 ,长 度 为 工 。 那么 ,由 工 个 观察 值 序列 构成 的 集合 
表示 为 02 = {Of}? O08? ,… OP ) (1,2,…, 工 )。 假 定 各 个 观察 值 序列 之 间 互 相 独 立 , 则 所 
有 观察 值 序列 的 联合 概率 MIDST Sea eae PCO® DRRR, BI 


Pid | )) = Jeo” | a) (9. 3) 


那么 ,多 观察 值 序列 的 CHMM 训练 ， MERRE m. i .Cim > Pin 和 Uj 等 参数 ,根据 
语音 训练 样本 O= (O™ ,02 , +++ ,O } 和 初始 模型 参数 1=%4; B,x) ,由 重 估 公式 求 得 一 组 
新 的 人 ,然后 判断 P(O|A) 是 否 收 伍 , 如 果 不 收敛 , 则 将 新 的 参数 A 作为 输入 再 次 进行 参数 重 
Ati ,反复 修 正 模型 ,直到 PC(O|X) 收 敛 为止 ,使 这 些 观察 值 序列 的 联合 概率 达到 最 大 。 
定义 第 /个 训练 样本 的 过 渡 概 率 E (7 为 已 知 观察 值 序列 O= {OP ,O ,… ,OP } 和 初 
始 模型 参数 4 二 (4,B,x) 条 件 下 ,ti 时 刻 处 于 状态 S 和 zt 十 1 时 刻 处 理 状态 S 时 的 概率 , 即 
E&P (i,j) = Pq = Sisqo = S; | OP 4a) (9. 4) 
那么 根据 前 向 算法 递归 式 (2.17) 一 式 (2. 19) 和 后 向 算法 递归 式 (2. 22) 一 式 (2. 24) ,得 
到 第 /个 训练 样本 的 前 向 概率 变量 a 人 ? oe pi， 可 以 计算 出 过 渡 概 率 为 
By = P (Dayb; (ORDER GD (9.5) 


PCO” | a) 
由 上 述 公式 可 以 推出 ,第 7 个 训练 样本 在 第 上 时 刻 处 于 状态 S; 的 概率 682 (i) 为 
&? i) = Plg, = S,/O” ,N) 


ae = De 

_ aP Gi) B® D l 

= POC hiia 
由 此 可 以 得 到 基于 工 个 观察 值 的 重 估 公式 为 


L 
元 一 De? @ (9.7) 


生生 = 一 = (9. 8) 


下 
DD Ve? Gm” 
Lin = = . (9.9) 


L T 
He? Gm) 
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L oE- 
Se Gm) 
= (9. 10) 


DD DP dsm 


l=1 t=] m=1 


= 





T 
DIEP Gym) (OP — pim) COM — pim)" 
Ü, = m (9.11) 


L T 
5 Der (7 sm) 


t=1 1=1 








9.2.3. HMM 识别 


需要 存 人 系统 词汇 表 里 的 每 个 词 条 都 训练 完成 之 后 , 记 为 Ar Ant A K 为 模型 库 中 
的 模型 数目 ,分 别 将 这 些 模型 参数 存储 ,构成 了 一 个 模型 库 系统 。 此 后 ,系统 就 具有 了 识别 
词汇 表 里 词 条 的 功能 。 

HMM 识别 的 基本 任务 就 是 将 输入 的 未 知 语音 信号 进行 识别 。 首 先 通过 端点 检测 获得 
正确 的 语音 段 ,然后 经 过 与 训练 过 程 中 同样 的 特征 提取 ,得 到 观察 序列 O= 0, ,DO ，…,Or， 
使 用 前 向 -后 向 算法 或 Viterbi 算法 ,计算 出 观察 值 序列 在 训练 好 的 各 HMM 模型 
Xi(1 人 iK) 条 件 下 的 输出 概率 POJ) , 取 概 率 最 大 的 模型 为 识别 词 条 。 


9.2.4 实验 结果 分 析 


我 们 从 藏 语 孤立 词 视听 语音 数据 集中 提取 了 音频 数据 , 将 其 用 于 CHMM 模型 的 语音 
识别 评估 实验 。 这 个 数据 集 包 括 30 个 藏 文字 母 .0 一 9 数字 和 10 个 命令 词 3 个 主题 。 其 
中 ,数字 语音 包含 5 个 男生 发 音 ,每 人 对 每 个 数字 发 音 4 遍 ; 字母 语音 包含 5 男 5 女 的 发 
音 , 同 样 也 是 每 人 每 个 字母 发 音 4 遍 ; 命令 词语 音 包 含 10 男 10 女 , 每 人 每 个 词 条 发 音 3 
遍 。 字 母语 音 和 数字 语音 都 是 噪声 语音 数据 ,而 命令 词语 音 是 纯净 语音 数据 。 

所 有 的 语音 数据 在 进行 训练 之 前 ,都 被 降 采 样 到 8kHz, 每 个 语音 帧 帧 长 为 20ms, 帧 移 
10ms, 窗 函数 采用 Hamming 窗 。 对 于 语音 特征 ,采用 了 24 维 的 MFCC 特征 参数 。CHMM 
的 状态 数 为 3, 每 个 状态 的 高 斯 元 个 数 也 是 3。 

表 9.1. 出 示 了 CHMM 同 DTW 语音 识别 方法 的 比较 结果 。 可 以 看 出 其 具有 明显 的 识 
别 优 势 。 


表 9.1 藏 语 语音 识别 结果 





方法 Digits Letters Words 
CHMM 51% 53% 89.5% 
DTW 39% 47% 70.5% 
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语音 识别 模型 建立 


在 视听 语音 识别 中 , 多 流动 态 贝 叶 斯 网 络 (Multi-stream Dynamic Bayesian Network) 
和 耦合 隐 马 尔 可 夫 模 型 (Coupled HMM) 是 常用 的 方法 , 但 是 它们 有 两 个 明显 的 不 足 : 一 是 
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不 能 学 习 多 模 态 共享 属性 ， 即 无 法 学 习 多 模 态 数据 之 间 的 相关 性 ,也 就 无 法 实现 跨 模 态 识 
别 和 数据 重 构 ; 二 是 这 两 种 方法 在 建 模 时 忽略 了 帧 和 帧 之 间 的 观测 属性 的 依赖 关系 ,然而 ， 
有 研究 表明 ,对 于 语音 信号 和 视频 信号 , 帧 间 属 性 是 有 上 下 文 依赖 关系 的 。 针 对 这 些 问题 ， 
本 节 介绍 的 深度 动态 贝 叶 斯 网 络 不 仅 可 以 无 监督 学 习 各 模 态 特征 属性 和 多 模 态 共享 属性 ， 
而 且 其 不 受 帧 间 独 立 的 假设 约束 ,与 多 流动 态 贝 叶 斯 网 络 和 Coupld HMM 模型 相 比 更 加 适 
合 视听 多 模 态 语音 识别 。 


9.3.1 概述 


近年 来 , 由 于 视听 语音 识别 的 较 强 抗 品 性 特点 , 其 已 经 成 为 提高 语音 识别 系统 鲁 棒 性 
的 一 条 新 途径 。 

目前 视听 语音 识别 的 多 模 态 信息 融合 策略 分 为 早 、 中 、 晚 期 融合 ,如 图 9. 4 所 示 。 很 显 
然 , 早 、 晚 期 融合 没有 反映 出 语音 与 视觉 特征 之 间 的 相关 性 。 中 期 融合 是 在 各 模 态 特 征 数据 
的 基础 上 ,通过 进一步 统计 计算 ,学 习 各 模 态 特 征 之 间 的 相互 关系 再 进行 识别 。 中 期 融合 有 
利于 人 们 认识 各 模 态 数据 之 间 的 相关 性 ,其 不 仅 可 以 实现 多 模 态 融合 识别 ,也 可 以 实现 跨 模 
态 识别 与 数据 重 构 , 即 当 某 个 模 态 数据 (如 音频 数据 ) 丢 失 时 ,利用 其 他 模 态 数据 (如 视频 数 
据 ) 和 特征 之 间 的 相关 性 ,恢复 其 数据 原貌 ,并 给 出 其 类 别 。 这 对 于 现实 应 用 中 的 唇 读 识别 、 
音 视频 数据 恢复 .语音 动 画 合成 都 具有 十 分 重要 的 意义 。 


IT Ay 


(a) 早期 融合 (b) outs 


A A A A A 


MACE papet 
Y Plne) lvlc) 
LL 


(c) 晚期 融合 
图 9.4 视听 语音 识别 的 融合 策略 
A 一 音频 数据 ; V 一 视频 数据 

现 有 的 中 期 融合 方法 大 多 采用 了 浅 层 模 型 (只 有 一 个 隐 层 的 特征 向 量 表示 ), 如 
Coupled HMMs 和 多 流 DBNs, 这 些 模型 一 是 无 法 学 习 多 模 态 数据 之 间 的 强 相 关 性 ; 二 是 
在 建 模 时 这 些 模型 假设 帧 间 特 征 属性 独立 。 由 于 视 、 音 频 信息 的 相关 性 是 高 度 非 线 性 的 ,并 
且 帧 间 特 征 属性 实际 是 由 上 下 文 依赖 关系 ,因此 这 些 浅 层 结构 模型 难以 学 习 各 模 态 特 征 之 
间 的 复杂 关联 。 
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最 近 几 年 ,深度 学 习 方 法 被 越 来 越 多 地 应 用 在 复杂 非 线性 的 属性 学 习 中 ,获得 了 良好 的 
识别 效果 。 其 大 部 分 的 方法 是 利用 限制 玻 耳 效 曼 机 (Restricted Boltzmann Machines, 
RBM) 来 构建 深度 信任 网 络 (Deep Belief Networks) ， 从 大 量 未 标注 的 视听 语音 数据 中 学 习 
各 模 态 特征 之 间 的 深层 次 关系 。 虽 然 实验 显示 其 噪声 环境 下 识别 准确 率 较 现 有 的 融合 方法 
提高 了 近 10% ,但 是 它 仍 存在 以 下 问题 ， 

(1) 空间 结构 人 为 设 定 ,不 是 通过 数据 驱动 学 习 而 得 。 如 果 对 所 研究 的 语言 (本 项 目 背 
景 语言 为 藏 语 ) 发 音 特征 (如 音素 ) 和 层 部 视频 特征 (如 视 素 ) 无 先 验 知识 时 ,这 将 导致 学 习 到 
的 融合 特征 向 量 存在 宛 余 或 者 缺失 ， 以 及 某 些 变量 之 间 的 关系 无 法 学 习 。 

(2) 不 能 学 习 变 量 的 时 间 变化 模式 。 然 而 ,语音 和 视频 最 基本 的 问题 就 是 时 间 序 列 的 
表示 。 

O 回调 修正 学 习 需 要 大 量 带 类 标注 数据 。 对 于 少数 民族 语言 ,由 于 缺乏 训练 有 素 的 
语音 标注 专家 ,语音 标注 代价 极 高 , 大 量 带 类 标注 数据 难以 获得 。 

因此 ,针对 以 上 问题 ,下 面 介 绍 一 种 深度 动态 贝 叶 斯 网 络 (Deep Dynamic Bayesian 
Network, DDBNs) ,其 借助 于 DBNs 强大 的 时 空 表达 能 力 及 优化 的 网 络 结构 学 习 能 力 ， 通 
过 与 深度 学 习 相 结合 ,可 以 有 效 地 学 习 并 表示 出 多 模 态 信息 之 间 的 复杂 时 空 相 关 性 。 同 时 
该 模型 结构 不 受 帧 间 独立 假设 的 制约 ,可 以 很 好 地 表现 语音 特征 、 视 频 特征 和 多 模 态 共 享 特 
征 的 动态 变化 规律 。 


9.3.2 深度 动态 贝 叶 斯 网 络 


根据 2. 2. 3 小 节 介绍 的 动态 贝 叶 斯 网 络 的 基本 原理 ,知道 其 拓扑 结构 分 成 两 部 分 ,如 
图 9. 5 所 示 ,一 部 分 是 空间 网 络 ( 又 叫做 初始 网 络 ), 另 一 部 分 是 转移 网 络 。 

根据 DBN 的 一 般 拓扑 结构 ,为 了 实现 在 不 同 层次 上 捕捉 变量 之 间 复 杂 的 时 空 关系 , 提 
出 了 如 图 9.6 所 示 的 深度 动态 贝 叶 斯 网 络 。 在 这 个 网 络 中 ,复杂 模式 被 自 底 向 上 分 解 成 不 
同 抽象 级 别 变量 之 间 的 时 空 关系 ,低层 变量 的 输出 是 上 层 变量 的 输入 ,上 层 的 变量 输出 总 结 
了 它 的 输入 变量 之 间 的 时 空 链 接 关系 。 


) 蒜 


(a) 空间 网 络 (初始 网 络 ) (b) 转移 网 络 
图 9.5 动态 贝 叶 斯 网 络 的 基本 拓扑 结构 图 9.6 深度 动态 贝 叶 斯 网 络 拓扑 





深度 动态 贝 叶 斯 网 络 的 层 内 结 点 与 层 间 结 点 之 间 都 可 以 通过 学 习 建立 有 向 链接 关系 。 
最 底 一 层 是 观测 数据 输入 层 , 其 可 以 是 信号 的 原始 数据 或 是 信号 的 观测 特征 数据 (如 语音 原 
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始 数据 或 语音 特征 数据 、 图 像 原 始 数据 或 图 像 特征 数据 等 ), 这 层 变 量 是 可 观测 的 。 从 第 二 
层 开 始 的 各 个 层 为 隐 层 , 隐 层 是 目标 模式 在 不 同 级 别 的 抽象 表示 ,， 相 邻 两 层 的 低层 输出 作 
为 高 层 的 输入 。 隐 层 结 点 的 输出 表征 了 其 与 链接 结 点 的 时 空 关系 。 数 据 输入 层 再 经 过 上 层 
变量 逐 级 的 抽象 学 习 , 直 到 最 后 一 层 , 可 以 使 用 少量 的 特征 变量 来 表示 复杂 的 模式 关系 。 

基于 深度 动态 贝 叶 斯 网 络 , 又 提出 了 用 于 视听 语音 识别 的 双 模 态 深度 动态 贝 叶 斯 网 络 ， 
如 图 9.7 所 示 。 其 中 ,最 顶 一 层 为 输出 层 , 即 识别 的 语音 类 别 ,与 其 紧邻 的 下 一 层 是 共享 ( 融 
合 ) 特 征 向 量 , 其 与 输出 层 之 间 形 成 分 类 映射 关系 。 模 型 的 最 底层 为 数据 输入 层 , 分 别 来 自 
音频 通道 和 视频 通道 。 考 虑 到 帧 间 特 征 变量 的 依赖 关系 ,假设 除数 据 输入 层 以 外 的 其 他 隐 
层 变 量 遵 循 马尔 可 夫 第 一 定律 。 











语音 类 别 层 人 多 rr tr 


跨 模 态 属性 层 . 







单 模 态 属性 层 O- O 
一 一 人 


语音 数据 输入 






MO = 


视觉 数据 输入 
图 9.7 基于 深度 动态 贝 叶 斯 网 络 的 视听 语音 识别 模型 


假设 低 维特 征 向 量 嵌入 在 高 维 原始 数据 中 ,这 里 假设 每 一 个 隐 层 变量 都 是 一 个 L 维 的 
隐 和 连续 状态 变量 。 在 图 9. 7 中 ,假设 zi 是 时 间 片 + 中 数据 输入 层 的 第 i 个 结 点 ,hx" 是 时 间 
Ht 中 第 w 层 的 第 & 个 隐 变 量 , s 代表 最 顶层 的 离散 类 结 点 集 ,根据 动态 贝 叶 斯 网 络 的 基 
本 原理 可 以 写 出 对 于 类 结 点 的 概率 分 布 计算 公式 为 


了 
了 (5 = z) = > Pi = z | 5 =i) p(s! =i) (9.12) 
i=1 


同时 也 可 以 写 出 在 变量 集合 {zxi,hx",s'} 上 的 联合 概率 分 布 计算 公式 为 
Pl({z! shg” 3 5) ) = 


[Pos [[ Pc! | (TTT Pa | Pachar) || IT [[ Pc | Pata) ] 
(9. 13) 
式 中 ,Pal ) 为 结 点 * 的 父 变 量 集 。 
基于 深度 DDBN 的 视听 语音 模型 是 一 个 层次 化 的 结构 ,其 在 不 同 抽象 层 捕捉 特征 变量 
之 间 的 时 空 关系 ,其 允许 多 模 态 信息 在 中 期 进行 融合 ,并 且 人 允许 帧 间 特 征 向 量具 有 依赖 关 
系 , 这 种 结构 形式 更 适合 于 表示 视听 语音 信号 。 


9.3.3 DDBN 拓扑 结构 的 学 习 和 视听 语音 识别 学 习 算 法 


基于 4. 3 节 中 的 动态 贝 叶 斯 网 络 的 结构 学 习 方 法 ,提出 了 无 监督 深度 动态 贝 叶 斯 网 络 
的 学 习 方法 ,使 用 这 个 学 习 方 法 不 仅 可 以 学 习 各 单 模 态 特征 属性 ,也 能 够 无 监督 学 习 共 享 特 
征 属性 ,同时 学 习 视听 语音 识别 模型 。 首 先 介绍 DDBN 的 学 习 方法 ,然后 给 出 基于 DDBN 
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的 视听 语音 识别 模型 学 习 算 法 。DDBN 的 学 习 分 为 两 个 步骤 , 即 空间 网 络 的 学 习 和 和 转移 网 
络 的 学 习 。 
1. 空间 网 络 的 学 习 


对 于 空间 网 络 的 学 习 , 按 照 图 9. 8 所 示 的 方式 ,一 个 块 一 个 
块 地 进行 空间 拓扑 结构 的 学 习 。 在 每 一 个 块 中 ,需要 学 习 输 出 
层 结 点 的 个 数 和 输入 层 与 输出 层 之 间 的 链接 关系 。 

(1) 特征 属性 学 习 

在 一 个 块 中 ,给 定 底层 输入 ,首先 需要 决定 上 层 ( 输 出 层 ) 结 
点 的 个 数 。 最 直接 的 方法 是 采用 贪 禁 学 习 方 法 ,从 只 有 一 个 输 
出 结 点 开始 ,使 用 结构 学 习 算 法 (2) ,学 习 优 化 结构 ,然后 每 次 选 
代 再 增加 一 个 结 点 ,计算 相应 的 优化 结构 ,这 个 和 迭代 过 程 直到 估 
计 的 优化 结构 的 评分 不 再 提高 为 止 。 

(2) 结构 学 习 

给 定 每 层 结 点 数目 以 后 ,需要 学 习 结 点 之 间 的 链接 关系 。 
假设 图 9. 9 所 示 为 DDBNs 的 任意 一 个 块 结构 ,其 中 A, 为 隐 结 
点 ,B, 为 输入 结 点 ,为 了 学 习 结 点 之 间 的 链接 关系 ,应 用 DBNs 
结构 EM 学 习 算 法 来 学 习 块 结构 。 结 构 EM 学 习 包 含 两 个 步 
又 , 即 E-step 和 M-step。E-step 为 给 定 当 前 网 络 结构 ,计算 结 点 
A, 的 期 望 值 ,而 M-step 应 用 计算 出 的 期 望 值 学 习 一 个 新 的 网 络 
结构 。 这 两 个 步骤 和 迭代 循环 ,直到 当前 学 习 到 的 网 络 结构 评分 
不 再 提高 ,并 给 出 最 后 的 网 络 结构 和 参数 。 





ESD 


(b) 目标 结构 





图 9.9 块 结构 学 习 
下 面 是 结构 EM 算法 的 总 结 : 


Algorithm9.1 The structural EM algorithm 
1. Choose an initial structure Go and estimate the parameters & for G. 
2. fort = 0, 1,... until convergence 
@ “Complete the data” — Compute the expected values of the variables with structure G, and 
parameter @,. 
© Find the structure G,+, that maximize the score (BIC, BDe 等 ) of the two-layer network through 
a greedy hill climbing procedure, 
© Learn the parameter +, for G.+1 with the parameter EM algorithm, 
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一旦 一 个 块 结构 学 习 完成 后 ,就 可 以 对 输出 层 结 点 进行 抽样 ,产生 新 的 数据 作为 下 一 个 

块 的 输入 层 数 据 ,然后 不 断 重复 块 结构 的 学 习 过 程 ,直到 最 后 一 个 块 学 习 完 成 。 

(3) 视听 语音 DDBN 模型 的 空间 结构 学 习 

对 于 视听 语音 DDBN 模型 ,首先 学 习 两 个 单 模 态 块 的 结构 , 即 语音 模 态 块 和 视频 模 态 
块 ,然后 再 向 上 继续 学 习 共 享 特征 层 和 语音 类 别 层 的 结构 ,如 图 9. 10 所 示 。 语 音 模 态 块 的 
学 习 是 学 习 语 音 特征 向 量 及 其 和 原始 语音 数据 的 关系 ,视频 模 态 块 的 学 习 是 学 习 视 频 特 征 
向 量 及 其 和 原始 视频 数据 的 关系 。 两 个 块 的 学 习 方法 一 样 ,这 里 以 语音 模 态 块 的 学 习 为 例 ， 
讲述 其 学 习 过 程 。 给 定 N 个 输入 数据 结 点 ,仍然 从 一 个 特征 结 点 开始 ,然后 应 用 结构 EM 
学 习 算 法 ,学 习 块 结构 ,每 次 迭代 不 断 加 入 新 的 特征 结 点 ,然后 计算 相应 的 块 结构 ,这 个 过 程 
直到 获得 的 块 结构 评分 不 再 提高 为 止 。 





语音 分 类 块 


图 9.10 视听 语音 识别 DDBN 模型 的 空间 网 络 学 习 


两 个 单 模 态 块 学 习 完 成 后 ,抽样 语音 特征 变量 和 视频 特征 变量 的 数据 ,将 其 作为 跨 模 态 
块 中 单 模 态 特征 层 的 输入 数据 。 接 着 使 用 块 学 习 方 法 ,学 习 共 享 特征 变量 个 数 及 其 同 语音 
特征 和 视频 特征 之 间 的 链接 关系 。 

在 最 上 部 的 一 个 块 ,直接 构建 一 个 贝 叶 斯 分 类 器 , 即 语音 类 结 点 与 各 个 共享 特征 结 点 完 
全 链接 。 


2. 转移 网 络 学 习 


空间 网 络 学 习 完 成 后 ,假设 DDBN 模型 在 每 一 个 时 间 片 具有 相同 的 空间 结构 ,这 样 按 
照 马尔 可 夫 第 一 定律 构建 了 DDBN 的 转移 网 络 结构 。 由 于 一 个 DDBN 可 以 看 成 是 一 个 大 
的 贝 叶 斯 网 络 , 因 此 使 用 贝 叶 斯 网 络 参数 EM 学 习 算 法 来 学 习 DDBN 的 参数 。 


3. 基于 DDBN 的 视听 语音 识别 模型 学 习 算 法 


首先 假设 D 二 {Di,，…, Du} 代表 M 个 视听 语音 时 间 序 列 数据 ,其 中 D, 是 由 TT 个 DD,,== 
{Qi jm "yap,m 9 Vim ;Va,m sm) 构 成 ,其 中 Lt T rai, ,a$,n 表 示 一 个 时 间 片 的 P 个 语 
音 输入 数据 ，vi,，，… ,vom 表示 一 个 时 间 片 的 Q 个 视频 输入 数据 ,si 为 该 时 间 片 的 语音 所 属 
的 语音 类 别 。 为 了 进行 无 监督 学 习 9 未 标注 语音 数据 和 视频 数据 U av a {U avı ats 
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M 
U awi} 需 要 被 构建 ,其 中 U amı = {a (vi "sa (wv pa} (l= l1, L) LS 2 Tais 


Hiaw = (hlav set shlas} 代表 被 学 习 到 的 单 模 态 特征 属性 变量 集 , H = {hi ,… ,ht ,…) 
代表 共享 特征 变量 集 。 

为 了 学 习 跨 模 态 块 的 结构 , A acy) 和 H? 中 的 变量 需要 被 推理 计算 ,以 便 抽样 出 新 的 数 
据 , 给 定 学 习 到 的 单 模 态 块 结构 , Hay 中 的 变量 可 以 按 式 (9. 14) 计 算 , 即 


Aix, = argmaxP (hiši | Pacha) (9.14) 

K Avy 

H? 中 的 变量 可 以 按 式 (9.15) 计 算 , 即 
hi'* = argmaxP (h2" | Pa(hi?")) (9.15) 

pert 


为 了 进行 语音 识别 ,使 用 标准 的 DBN 推理 算法 ,在 给 定 观 测 数据 ai ，… ap sui se, 
vg" 下 ,用 式 (9. 16) 获 得 p(s laj", sap“ suae sv RAKHI y 的 值 , 即 


s* = argmaxp (s' | al” =t ,ab’ ,vl stts ug") (9.16) 
t 


下 面 总 结 了 给 定 输入 数据 D, 基 于 DDBN 的 视听 语音 识别 模型 学 习 算法 。 


Algorithm9.2 The learning algorithm of DDBN for audiovisual speech recognition 
1. Learning the audio block 
For i 一 1, … until no improvement in the score of the estimated structure between audio input layer 
and acoustic features layer 
1.1 Add one node into acoustic features layer 
1.2 Apply SEM to learn the structure using U 4 
2. Learning the visual block 
For i=1, . until no improvement in the score of the estimated structure between visual input layer 
and visual features layer 
2.1 Add one node into visual features layer 
2.2 Apply SEM to learn the structure using U v 
3. Inferring the values of H's and H'y, according to the given data U 4, U v and the learned structures 
in step 1, 2 
4. Learn the cross-modality block 
For i= 1, ... until no improvement in the score of the estimated structure between the shared 
features layer and the single modality features layer 
4.1 Add one node into the shared features layer 
4.2 Apply SEM to learn the structure using H'={H',, H'y} 
5. Add the links between the label node and the shared feature nodes; (This step is not necessary for 
isolated-word recognition) 
6. Construct the transition network topology of DDBN 
7. Apply parameter EM to learn the parameters of the spatial network and transition network of 
DDBN using D 
8. Output the DDBN models 





9.3.4 实验 与 结果 分 析 . 
这 里 使 用 了 同 9. 2.4 相同 的 藏 语 视听 语音 数据 集 ， 从 每 个 数据 中 提取 语音 信号 和 视频 
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信号 作为 实验 数据 。 语 音信 号 被 降 采 样 到 8kHz, 语音 帧 长 20ms, 帧 移 10ms, 窗 函数 采用 
Hamming 窗 。 因 此 对 语音 模 态 的 输入 层 数据 结 点 选 为 160 个 ,其 是 一 帧 的 原始 语音 信号 幅 
度 归 一 化 处 理 后 的 数据 。 

对 于 视频 数据 ,通过 对 每 一 帧 图 像 进行 处 理 ,首先 提取 了 说 话 者 嘴 部 区 域 的 8 个 点 的 位 
置 ,如 图 9. 11 所 示 , 然后 分 别 计算 左右 嘴角 的 距离 和 上 下 嘴唇 对 应 点 的 距离 ,以 代表 说 话 
者 嘴 的 张 度 , 如 图 9. 12 所 示 。 由 于 每 一 帧 图 像 中 人 脸 的 大 小 不 同 (图 9. 13) ,无 法 比较 发 音 
时 嘴 的 动态 变化 ,因此 用 相 邻 两 帧 的 嘴 的 后 差 张 度 , 即 嘴 部 4 个 距离 的 前 后 两 帧 的 差 值 作为 
当前 帧 的 视频 输入 数据 。 并 且 由 于 视频 信号 的 采样 频率 是 20Hz, 为 保证 音 视 频 输入 数据 的 
同步 ,对 视频 特征 进行 插值 计算 。 


天 
项 








图 9.11 说 话 者 嘴 部 区 域 的 8 个 点 





图 9.13 3 个 主题 视听 语音 集中 视频 帧 图 像样 本 


同时 又 构造 了 无 标注 的 数据 集 , 用 来 无 监督 学 习 语音 特征 向 量 和 共享 特征 向 量 , 并 且 保 
证 测试 数据 不 包含 在 这 个 无 标注 数据 集中 。 

根据 先前 的 一 些 研究 结果 , 即 两 个 因子 就 可 代表 元 音 发 音 的 稳定 状态 ,假设 隐 连 续 状态 
变量 为 二 维 向 量 。 

实验 比较 了 基于 DDBN 的 视听 语音 识别 模型 同 两 流 的 DBN (图 9. 14) 和 Coupled 
HMM( 图 9. 15) 的 语音 识别 表现 ,其 中 两 流 的 DBN 和 Coupled HMM 的 语音 观测 数据 都 取 
24 维 的 MFCC 特征 参数 ,视频 观测 数据 取 嘴 部 的 4 个 张 度 差 。 

表 9. 2 示 出 了 实验 的 比较 结果 ,可 以 看 到 提出 的 DDBN 用 于 视听 语音 识别 ,其 识别 结 
果 远 好 于 其 他 两 个 常用 模型 。 这 个 模型 可 以 很 好 地 学 习 到 语音 特征 向 量 和 融合 特征 向 量 ， 
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语音 观测 数据 输入 \ © 





视觉 观测 数据 输入 
图 9.14 基于 两 流 DBN 的 视听 语音 识别 模型 ”图 9.15 基于 Coupled HMM 的 视听 语音 识别 模型 


更 好 地 表示 出 了 各 模 态 信息 的 相关 性 和 各 属性 之 间 的 时 空 依赖 关系 。 
表 9.2 视听 语音 识别 模型 实验 结果 








方法 模型 ， Digits Letters Words 
DDBN 90.1% 98.2% 99.4% 
two-stream DBN 64.4% 72.3% 96.2% 
Coupled HMM 62.3% 70.9% 95.4% 


同时 ,也 比较 了 视听 语音 识别 模型 同 单 模 态 语音 识别 模型 的 识别 效果 ,结果 如 表 9. 3 所 
示 。 可 以 看 到 ,视听 多 模 态 融合 识别 结果 要 好 于 单 模 态 识别 结果 。 
表 9.3 双 模 态 与 单 模 态 识别 结果 


方法 模型 Digits Letters Words 
Two-modal DDBN 90.1% 98.2% 99.4% 
Audio-only DDBN 51.6% 66.7% 92.1% 
Visual-only DDBN 53.4% 68.3% 88.6% 


由 于 藏 语 是 一 个 比较 复杂 的 语言 ,其 语言 学 至 今 还 未 研究 成 熟 , 因 此 对 于 藏 语音 素 的 研 
究 成 果 还 不 能 应 用 到 藏 语 语音 识别 任务 中 。 本 节 介 绍 的 深度 动态 贝 叶 斯 网 络 , 其 在 无 任何 
藏 语 先 验 知识 的 情况 下 ,可 以 从 语音 数据 中 无 监督 地 学 习 藏 语 语音 特征 ,如 果 数 据 量 足够 
大 ,其 学 习 的 特征 变量 接近 于 实际 藏 语 语音 音素 个 数 。 并 且 深 度 动态 贝 叶 斯 网 络 放松 了 帧 
间 特 征 向 量 的 独立 假设 ,其 更 好 地 学 习 到 了 特征 变量 随时 间 变 化 的 模式 ,通过 对 藏 语 3 个 主 
题 的 视听 语音 识别 任务 的 实验 可 以 看 到 ,深度 动态 贝 叶 斯 网 络 对 视听 融合 语音 识别 的 效果 
是 非常 好 的 。 


附录 A 
概率 图 模型 常用 开发 工具 


多 年 来 ,研究 者 开发 了 多 种 软件 和 编程 工具 以 支持 概率 图 模型 的 学 习 和 推理 。 下 面 列 
了 一 些 最 常见 的 概率 图 模型 软件 开发 工具 。 


1. BNT 


贝 叶 斯 网 络 工 具 箱 是 一 个 开源 Matlab 工具 箱 , 针 对 有 向 BNs (如 高 斯 混合 、 线 性 / 
Logistic 回归 、 分 层 混 合 experts、 隐 马尔 可 夫 模 型 .线性 动态 系统 及 DBNs)。BNT 包含 联 
合 树 精确 推理 算法 , 它 也 支持 诸如 Loopy BP 近似 算法 。 对 于 HMMs 模型 ,BNT 支持 前 
向 一 后 向 推理 和 维特 比 推论 。 它 也 支持 对 HMMs、BNs 和 DBNs 的 最 大 似 然 估 计 (MLE) 
参数 学 习 。BNT 也 支持 有 限 结 点 数目 的 DBN 结构 学 习 。 其 网 站 地 址 为 www. cs. ube. ca/~ 
murphyk /software/BNT/ bnt. html。PNL 是 BNT 的 一 个 C++ 版 本 ,实现 了 部 分 BNT 工 
具 包 的 部 分 功能 ,支持 在 MRF、BN、DBN 模型 的 推理 。 人 http://www. 


sourceforge. net/projects/openpnl, 
2. MSBNx 


MSBNx 是 一 个 易于 使 用 的 图 形 用 户 界 面 软件 。 它 支持 离散 BN 模型 的 设计 和 精确 推 
理 。 对 于 初学 者 ,这 个 软件 极其 容易 上 手 。 它 还 支持 HMM 模型 的 概率 推理 。 其 网 站 地 址 


为 http://research. microsoft. com/msbn/, 
3。BUGS 


BUGS(Bayesian Inference Using Gibbs Sampling) 是 一 个 用 来 通过 Gibbs Sampling 对 
BNs 进行 贝 叶 斯 推理 的 软件 。 它 对 建 模 条 件 提供 了 大 量 的 预 编译 分 布 。 这 个 软件 也 很 容 
易 使 用 ,因为 它 是 基于 脚本 的 界面 。 此 外 ,BUGS 脚本 可 以 被 其 他 软件 工具 如 Matlab 直接 
调用 。 然 而 ,对 于 抽样 的 MCMC 收敛 计算 往往 是 非常 缓慢 的 。 其 网 站 地 址 为 http:// 


www. mrc-bsu. cam. ac. uk/bugs/。 
4. VIBES 


VIBES( Variational Inference Bayesian Networks) #—~ BN 推理 的 Java 开源 软件 包 。 
不 像 BUGS 那样 , 它 使 用 Variational mean field 加 快 推理 时 间 , 但 是 却 牺 牲 了 模型 的 精确 
度 。 其 网 站 地 址 为 http://vibes. sourceforge. net/ 。 
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5. Infer. NET 


Infer. NET #£ MicroSoft Research 开发 的 一 个 面向 对 象 的 概率 图 模型 软件 ,用 户 可 
以 指定 (使 用 Csoft 的 )BNs 的 一 般 模型 图 及 具有 离散 /连续 变量 的 因子 图 模型 。 它 提供 了 
丰富 的 学 习 和 推理 算法 ,包括 广义 信任 传播 和 期 望 的 传播 。 其 网 站 地 址 为 http:// 


research. microsoft. com/mlp/ml/infer/infer. htm, 
6. CRF++ 


CRF++ 是 一 个 用 C++ 编写 的 CRF TA. Eth Matlab 提供 了 MAP 推理 接口 和 边远 
概率 计算 的 接口 。CRF 模型 仅 限 于 CRF 模型 对 。 它 对 结 点 近邻 限制 在 标准 的 4- 近 邻 系统 。 
它 支 持 使 用 LBFGS 方法 进行 参数 学 习 。 网 站 地 址 为 http://crfpp. sourceforge. net/ 。 

除了 上 述 比 较 流行 的 工具 包 外 ,也 有 一 些 个 人 开发 的 软件 包 , 如 CInference, SLS4MPE 
和 libDAI, 


附录 B 
贝 叶 斯 网 工具 箱 BNT 的 研究 与 学 习 


基于 Matlab 的 贝 叶 斯 网 络 工 具 箱 BNT 是 Kevin p. murphy 基于 Matlab 语言 开发 的 
关于 贝 叶 斯 网 络 学 习 的 开源 软件 包 ,提供 了 许多 贝 叶 斯 网 络 学 习 的 底层 基础 函数 库 ,支持 多 
种 类 型 的 结 点 (概率 分 布 )、 精 确 推 理 和 近似 推理 ,参数 学 习 及 结构 学 习 、 静 态 模 型 和 动态 
模型 。 

贝 叶 斯 网 络 表 示 : BNT 中 使 用 和 矩阵 方式 表示 贝 叶 斯 网 络 , 即 车 结 点 i 到 j 有 一 条 弧 , 则 
对 应 矩阵 中 (i, 站 值 为 1, 否 则 为 0。 

结构 学 习 算法 函数 : BNT 中 提供 了 较为 丰富 的 结构 学 习 函 数 , 包 括 : 

(1) 学 习 树 扩展 贝 叶 斯 网 络 结构 的 TAN 算法 learn_struct_tan()。 

(2) 数据 完整 条 件 下 学 习 一 般 贝 叶 斯 网 络 结构 的 K2 算法 learn_struct_k2() ARREK 
GS(greedy search) 算 法 learn_struct_gs() AMG wl) HC (Chill climbing) 算 法 learn_struct_ 
he), l 

(3) 缺失 数据 条 件 下 学 习 一 般 贝 叶 斯 网 络 结构 的 最 大 期 望 EM (Expectation 
Maximization) 算 法 learn_struct_EM() 和 马尔 可 夫 链 蒙特 卡 罗 MCMC (Markov Chain 
Monte Carlo)learn_struct_mcmc() 算 法 等 。 

参数 学 习 算 法 函数 : BNT 中 也 提供 了 丰富 的 参数 学 习 函 数 ,都 有 : 

(1) 完整 数据 时 ,学习 参数 的 方法 主要 有 两 种 : 最 大 似 然 估 计 learn_params() 和 贝 叶 斯 
方法 bayes_update_params() 。 

(2) 数据 缺失 时 ,如 果 已 知 网 络 拓扑 结构 ,用 EM 算法 来 计算 参数 ,倘若 未 知 网 络 拓扑 
结构 ,使 用 结构 最 大 期 望 SEM(structure EM) ¥ learn_struct_SEM(). 

推理 机 制 及 推理 引擎 : 为 了 提高 运算 速度 ,使 各 种 推理 算法 能 够 有 效应 用 ,BNT 工具 
箱 采 用 了 引擎 机 制 ,不 同 的 引擎 根据 不 同 的 算法 来 完成 模型 转换 、. 细 化 和 求解 。 这 个 推理 过 
程 如 下 : 

BNT 中 提供 了 多 种 推理 引擎 ,都 有 ， 

(1) 联合 树 推理 引擎 jtree_inf_engine()。 

(2) 全 局 联合 树 推理 引擎 global joint_inf _ engine() 。 

(3) 信念 传播 推理 引擎 belprop_inf engine() 。 

(4) 变量 消 元 推理 引擎 var_elim inf_engine()。 

使 用 BNT 被 的 相关 实验 及 结果 如 下 。 
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1. 手动 建立 贝 叶 斯 网 络 模型 及 简单 推理 例子 
例 B-1 “草地 潮湿 原因 模型 ?建立 及 推理 (全 是 离散 变量 ) 。 


%% 建 立 贝 叶 斯 网 络 结构 并 制定 条 件 概 率 表 

二 4; ”和 % 四 个 结 点 分 别 是 cloudy, sprinkler, rain, wetgrass 
dag = zeros(N,N); 
C=1;S 2;R 3; W 4; 








dag(C, [R S]) = 1; %% 结 点 之 间 的 连接 关系 
dag(R,W) = 1; 

dag(S,W) = 1; 

discrete_nodes = 1:N;; %% 离 散 结 点 

node_sizes = 2 * ones(1,N); % 结 点 状态 数 


bnet= mk_bnet(dag, node_sizes, 'names', {'cloudy', 'sprinkler', 'rain', 'wetgrass'} , 'discrete' , discrete 
_nodes) ; 

bnet. CPD{C} = tabular_CPD(bnet,C, [0.5 0.5]); 

bnet. CPD{R} = tabular_CPD(bnet,R, [0.8 0.2 0.2 0.8]); 
bnet. CPD{S} = tabular_CPD(bnet,S, [0.5 0.9 0.5 0.1]); 
bnet. CPD{W} = tabular_CPD(bnet, W, [1 0.1 0.10.01 00.9 0.9 0.99]); 
%% 画 出 建立 好 的 贝 叶 斯 网 络 

figure 

draw_graph(dag) 

% 选 择 jtree_inf_engine 推理 引擎 . 

engine = jtree_inf_engine(bnet) ; 

%% 输 入 证 据 

evidence = cell(1, N); 

evidence{R} = 2; 

[engine, loglike] = enter_evidence(engine, evidence) ; 

% 计 算 单个 结 点 后 验 概率 , 即 进 行 推 理 

margl = marginal_nodes(engine, S); 

margl.T 

多 计算 对 结 点 联合 后 验 概率 

marg2 一 marginal_nodes(engine, [S R W]); 

marg2. T : 

% 给 出 “ 软 证 据 ”", 即 结 点 的 可 能 分 布 概率 情况 下 的 推理 
evidence{R} = []; 

soft_evidence{R}=[0.6 0.4]; 


[engine, loglike] = enter_evidence(engine, evidence, 'soft', soft_evidence) ; 
marg3 = marginal_nodes(engine, S) ; 

marg3.T 

运行 结果 : 


(1) 贝 叶 斯 网 络 如 图 B-1 所 示 。 
(2) 单个 节点 后 验 概 率 : 


ans 一 
0.8200 
0.1800 
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图 B-1 草地 潮湿 原因 贝 叶 斯 网 络 模型 
(3) 多 个 节点 后 验 概率 : 


ans(:,:,1) = 
0.0820 ` 
0.0018 

ans(:,:,2) = 
0.7380 
0.1782 


(4) soft_evidence 情况 下 的 后 验 概率 : 


ans 一 
0.6760 
0.3240 


例 B-2 ”焚化 炉 厂 废物 排放 模型 建立 及 推理 (包含 离散 变量 和 连续 变量 ) 。 

这 个 实验 与 第 一 个 实验 不 同 的 地 方 就 是 它 所 建立 的 贝 叶 斯 网 络 中 的 结 点 变量 包含 连续 
变量 ,在 建立 条 件 概率 表 时 会 有 所 不 同 ,离散 变量 使 用 CPD 构造 器 tabular_CPD ,连续 变量 
使 用 gaussian_CPD。 这 里 只 给 出 这 一 部 分 的 代码 : 


bnet. CPD{B} tabular_CPD(bnet, B, 'CPT', [0.85 0.15]); 

bnet. CPD{F} = tabular_CPD(bnet, F, 'CPT', [0.95 0.05]); 

bnet. CPD{W} = tabular_CPD(bnet, W, 'CPT', [2/7 5/7]); 

bnet. CPD{E} = gaussian_CPD(bnet, E, 'mean', [-3.9 -0. 4 -3.2 -0. 5], 'cov', [0.00002 0.0001 
0.00002 0.0001]); 

bnet. CPD{D} = gaussian_CPD(bnet, D, 'mean' , [6.5 6.0 7.5 7.0], 'cov', [0.03 0.04 0.10. i R E 
weights', [1 1 1 1]); 

bnet. CPD{C} = gaussian_CPD(bnet, C, 'mean', [-2 -1], 'cov', [0.1 0. 3]); 

bnet. CPD{L} = gaussian_CPD(bnet, L, 'mean',3,'cov', 0.25, 'weights',-0.5); 

bnet. CPD{Min} = gaussian_CPD(bnet, Min, 'mean', [0.5 -0.5] 'cov', [0.01 0.005]); 
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bnet. CPD{ Mou} = gaussian_CPD(bnet, Mout, 'mean',0, 'cov', 0.002, 'weights', [1 1]); 


贝 叶 斯 网 建立 好 后 ,推理 部 分 和 例 B-1 相似 ,这 里 不 再 讨论 。 
2. 参数 学 习 举 例 


这 里 使 用 的 例子 依然 是 “草地 潮湿 原因 模型 "*。 首 先 如 上 面 实 验 那样 建立 好 贝 叶 斯 网 络 
bnet, 并 手动 构造 条 件 概率 表 CPT。 然 后 使 用 BNT 里 的 函数 sample_bnet(bnet) 来 产生 
nsamples 个 数据 样本 ,nsamples 分 别 取 值 20、200、2000。 然 后 ,再 重新 建立 一 个 不 知道 条 
件 概 率 表 的 贝 叶 斯 网 络 bnet2( 结 构 和 bnet 相同 ) ,并 把 得 到 的 样本 作为 训练 集 代 入 learn_ 
params() 函数 进行 学 习 , 把 学 习 到 的 条 件 概率 表 CPT2 与 手动 构造 的 CPT 进行 了 比较 。 参 
数学 习 部 分 代码 如 下 : 


nsamples 一 20; 
samples = cell(N, nsamples) ; 
for i = 1:nsamples 
samples(:,i) = sample_bnet(bnet) ; 

end 
data = cell2num(samples) ; 
bnet2 = mk_bnet(dag, node_sizes, 'discrete', discrete_nodes) ; 
seed = 0; 
rand('state', seed) ; 
bnet2.CPD{C} = tabular_CPD(bnet2,C) ; 
bnet2.CPD{S} = tabular CPD(bnet2,S); 
bnet2.CPD{R} = tabular_CPD(bnet2, R); 
bnet2.CPD{W} = tabular_CPD(bnet2, W); 
bnet3 = learn_params(bnet2, data) ; 
CTP 1=cell(1,N); 
for i=1:N 

s=struct(bnet3.CPD{i}); 

CPT 1{i}=S.CPT; 
end 


运行 结果 : 
手动 给 出 的 CPT 


[0.50.5] 
[0.8 0.2 0.2 0.8] 
[0.5 0.9 0.5 0.1] 
[1 0.1 0.1 0.01 00.9 0.9 0.99] 
nsamples= 20 
[0.4 0.6] 
[0.6250 0.1666 0.3750 0.8333] 
[0.51 0.5 0] 
[1 0.09 0 0 0 0.9091 1 1] 
nsamples= 200 
[0.51 0.49] 
[0.7451 0.1735 0.2549 0.8265] 
[0.4608 0.908 0.5392 0.0918] 
[1 0.1047 0.0930 0 0 0.8953 0.9070 1] 
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一 


nsamples= 2000 
[0.5085 0.4915] 
[0.7906 0.2094 0.2014 0.7986] 
[0.4749 0.8932 0.5251 0.1068] 
[1 0.1023 0.0796 0.0053 0 0.8977 0.9204 0.9947] 


可 以 看 出 , 随 着 训练 样本 数 的 增加 ,学 习 到 的 条 件 概率 表 越 来 越 逼近 于 手动 给 出 的 条 件 
概率 表 。 


3. 结构 学 习 举 例 


基于 上 面 “ 草 地 潮湿 原因 模型 ”例子 ,首先 手动 建立 好 贝 叶 斯 网 络 bnet, 然后 使 用 函数 
sample_bnet(bnet) 产 生 训 练 样本 ,制定 结 点 顺序 和 最 大 父 结 点 数 ,代入 K2 算法 ,进行 结构 
学 习 , 并 比较 了 不 同 训 练 样本 数 (nsamples) 的 情况 下 ,学 习 到 的 结构 和 实际 结构 的 差异 。 
添加 的 程序 代码 如 下 : 


order = [CSR W]; 

max_fan_in =2; 

dag2=learn_struct_K2(data, node_sizes, order, 'max_fan_in', max_fan_in); 

figure 

draw_graph(dag2) 

实验 结果 如 下 : 

可 以 看 出 当 样本 数 达 到 一 定 的 值 以 后 ,K2 算法 可 以 很 好 地 建立 出 需要 的 贝 叶 斯 网 络 
结构 。 

(1) 手动 给 出 的 结构 ,如 图 B-2 所 示 。 








B-2 手动 给 出 的 贝 叶 斯 网 络 模型 


140 HRB 贝 叶 斯 网 工具 箱 BNT 的 研究 与 学 习 


(2) nsamples 王 10 ,训练 样本 学 习 的 模型 如 图 B-3 所 示 。 





图 B-3 10 个 训练 样本 学 习 的 贝 叶 斯 网 络 模型 
(3) nsamples 二 20, 训 练 样本 学 习 的 模型 如 图 B-4 所 示 。 





图 B-4 20 个 训练 样本 学 习 的 贝 叶 斯 网 络 模型 
(4) nsamples 一 30, 训 练 样本 学 习 的 模型 如 图 B-5 所 示 。 
4. 应 用 实例 


信用 风险 等 级 评估 模型 学 习 和 预测 。 
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图 B-5 30 个 训练 样本 学 习 的 贝 叶 斯 网 络 模型 


本 应 用 程序 对 客户 的 15 个 特征 属性 建立 信用 风险 等 级 分 类 模型 ,模型 结 点 共 16 个 , 包 
含 一 个 等 级 分 类 结 点 LIMIT_OWE_L, 结 点 全 部 为 离散 变量 。 分 类 模型 采用 TAN 模型 , 通 
过 对 输入 的 训练 集 进行 结构 和 参数 学 习 , 建 立 分 类 模型 ,最 后 对 其 进行 分 类 精度 测试 。 下 面 
是 其 完整 代码 。 


% 初 始 化 变量 和 读数 据 

N=16; 
PAY_CODE=+1;D_CODE=2;PREPAY_FEE_L=3;FAVOUR_FEE_L=4;SHOULD_PAY_L=5; 
PAYED _STATUS=6;MONTH_FEE_L=7;LOCAL_NET_L=8;ROAM_FEE_L=9; å 
TOLL_FEE_L=10;OCC_FEE_L=11;PAYED_LATER_L=12;SEX=13; AGE_L=14; LIMIT_ 
OWE_L=16;ONLINE_TIME_L=15; 

ns = [2253523445253544]; %% 每 个 结 点 的 取 值 范围 

seed = 0; 

rand('state', seed); 

randn('state', seed); 

%% 读 训练 数据 

[pay_code, d_code, prepay_fee_l, favour_fee_l, should_pay_1l, payed_status, month_fee_l, local_net_1， 
roam_fee_l,toll_fee_l,occ_fee, payed_later_l, sex, age_l, online_time_1, limit_owe_I] = textread( 'limit_ 
owe_alltrain. txt', ' ⁄%d%d%d%d%d%d%d%d%d%d%d%d%d%d%d%d'); 

data= [pay_code, d_code, prepay_fee_l, favour_fee_l, should_pay_l, payed_status, month_fee_1, local_ 





net_l, roam_fee_l, toll fee 1,occ fee, payed_later_1, sex, age_l, online_time_1, limit_owe_l]'; 





[nl nl_case] =size(data) ; | 

order 一 [PAY_ CODE D_CODE PREPAY_FEE_L FAVOUR_FEE_L SHOULD_PAY_L PAYED_ 
STATUS MONTH_FEE_L LOCAL_NET_L ROAM FEE L TOLL_FEE_L OCC_FEE_L PAYED_ 
LATER_L SEX AGE_L ONLINE_TIME_L LIMIT_OWE_L]; | 

max fan in = N; 

class_node=16; 

root=15; 


scoring_fn= 'bic'; 
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% Bite A 
dagl = learn_struct_tan(data, class_node, root, ns, scoring_fn) ; 


figure; [xx yy] = make_layout(dag]1) ; 

subplot(1,2,1), [xx yy]=draw_graph(dagl, names, carre, xx, yy); %,carre) ; 
title('dag1') ; 

bnet=mk_bnet(dag1,ns, 'discrete', order) ; 


% 参数 学 习 
For i=1:16 


bnet. CPD{i} = tabular_CPD(bnet, i) ; 
end 
bnet = learn_params(bnet, data) ; 
% 读 测试 数据 并 测试 模型 分 类 精度 
[pay_code3,d_code3, prepay_fee_13, favour_fee_13, should_pay_13, payed_status3, month_fee_13, local_ 
net_13, roam_fee_13, toll_fee_13, occ_fee3, payed_later_13, sex3, age_13, online_time_13, limit_owe_13] = 
textread('limit_owe_test.txt', '%d%d%d%d%d%d%d%d%d%d%d%d%d%d%d%d'); 
data_t=[pay_code3,d_code3, prepay_fee_13, favour_fee_13, should_pay_13, payed_status3, month_fee_ 
13, local_net_l3, roam_fee_13, toll_fee_13, occ_fee3, payed_later_13, sex3, age_13, online_time_13, limit_ 
owe_13]'; 
[tt ttcase] =size(data_t) ; 
pv_t=zeros(1, ttcase) ; 
p_t=zeros(1, ttcase) ; 
engine_t = jtree_inf_engine(bnet) ; 
pv=zeros(1, ttcase) ; 
p=zeros(1, ttcase) ; 
pe=zeros(1,4); 
i_class=0; 
count=0; 
L11=0;L12=0;L13=0;L14=0;ncl=0; 
L21=0;L22=0;L23=0;L24=0;nc2=0; 
L31=—0;L32=0;L33=0;L34=0;nc3=0; 
L41=0;L42=0;L43=0;L44=0;nc4=0; 
for i=1:ttcase 
evidence = cell(1,N); 

for j=1:N-1 

evidence{j} = data_t(j,i); 





end 
[engine_t, ll_t] = enter_evidence(engine_t, evidence) ; 
m = marginal_nodes(engine_t, class_node) ; 

for k=1:4 

pe(k)= m. T(k); 

end 
max_pc=pc(1); 
max_i=1; 
r_m=—zeros(1,4); 


for f=1:3 
if max_pe>pc(f{+1), 
r_m(f)=0; 
else 


if max_pe==pc(f{+1), 
r_m(f)=1; 
else 
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max_pc 一 pc(f 十 1); 
max_i=f+1; 
r_m(f{+1)=0; 
end 
end 
end 
if r_m(max_i)==1, 
i_class=i_class+1; 
else 
p(i) =max_pc; 
pv(i) = max_i; 
end 
v=data_t(N,i); 
if v==1&pv(i)==1, count=count+1 ;L11=L11+1;end 
if v==1&pv(i) = =2, L12=L12+1;end 
if v= =1&pv(i) = =3, L1I3=L13+1;end 
if v==1&pv(i) = =4, LI4=L14+1;end 
if v==2&pv(i) = =1, L21=L21+1;end 
if v= =2&pv(i) = =2, count=count+1 ;L22=L22+1;end 
if v= =2&pv(i) = =3, L23=L23+1;end 
if v= =28&.pv(i) = =4, L244=L24+1;end 
if v= =3&pv(i) ==1, L31=L31+1;end 
if v= =38&.pv(i) = =2, L32=L32+1;end 
if v= =38&pv(i) = =3, count=count+1 ;L33=L33+1;end 
if v= =38.pv(i) = =4, L34=L34+1;end 
if v= =4& pv(i) = =1, L41=L41+1;end 
if v= =48&.pv(i) = =2, L42=L42+1;end 
if v= =4& pv(i) = =3, L43=L43+1; end 
if v==4&pv(i) ==4, count=count+1 ;L44=L44+1;end 
if r_m(max_i) 1&v 1,ncl=ncl+1;end 
if r_m(max_i)==1&v 2,nc2—=nc2+1;end 
if r_m(max_i) ==1&v==3,nc3=nc3+1;end 
if r_m(max_i) = =1&v= =4, nc4=nc4+1;end 














end 
per_matrix=[ ]; 


per_matrix(1)=count/ttcase; % 分 类 精度 
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